仪器信息网APP
选仪器、听讲座、看资讯

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

进入 #Nature阅读更多话题内容

导读:Nature 杂志新闻版发布了一篇重磅消息:论文图片查重软件研发成功,软件开发人员在对 3500 篇预印版论文进行的检测中,找出 24 张涉嫌重复 / 造假的图像。

近日,Nature 杂志新闻版发布了一篇重磅消息:论文图片查重软件研发成功,软件开发人员在对 3500 篇预印版论文进行的检测中,找出 24 张涉嫌重复 / 造假的图像。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

这对于论文造假无疑是一记重锤。

疯狂的论文造假

由于存在巨大的利益,论文造假一直屡见不鲜,甚至在部分国家或地区形成了造假论文产业链。

有造假、就有打假;但与庞大的造假数量相比,靠几个志愿者打假,显然是杯水车薪。

中国是重灾区之一

美国 Healsan Consulting LLC 对全球撤稿数据库的分析显示,

  1、中国 SCI 论文撤稿占到所有撤稿的 44.0%。

  截止到 2020 年 6 月 22 日,世界范围内共有 23,425 篇 SCI 撤稿,其中中国有 10,303 篇,远远高于第二位的美国 4,125 篇。中国论文撤稿占 44%。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

  (图 1. Credit:Healsanconsulting LLC, USA)

  2、剽窃仍然是中国 SCI 论文撤稿的首要原因。

  近三年中国 SCI 论文共有 1397 篇 SCI 论文撤稿,其中因为剽窃所致的撤稿有 547 篇(39%),另外错误所致的撤稿有 330 篇(24%)。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

  (图 2. Credit:Healsanconsulting LLC, USA)

  图片查重软件应运而生

  上面数据中提到的占撤稿原因 39% 的 「抄袭」,主要是指文字抄袭。因为目前的查重系统只能查文字,不能查图片。

  而撤稿第二常见原因 「错误」 部分,则主要是图片 「错误」。在目前靠人工检查的情况下,就已经发现了大量伪造的图片,可知实际情况多么严重。

  所以当论文图像查重软件的研发者,美国纽约 Syracuse 大学的机器学习研究人员 Daniel Acuna,递交了其第一批图片查重结果时,立即引起学术界的关注。

  1、识别原理

  其基本原理是,将提取图片放大以获得特征性图片数字 「指纹」,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。

  根据 Acuna 研究团队之前的检测结果,他们推测数据库中 1.5% 论文包含有可疑的图像,而 0.6% 论文包含有欺诈性图像。

  2、小试牛刀

  这款软件从 2015 年开始研发,历经 5 年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病(COVID-19)领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播,低质量、甚至造假论文也屡见不鲜。

  Acuna 研究团队从 bioRxiv 和 medRxiv 服务器上下载了 3500 篇论文,总共有 21,000 张图片。在 4 个小时内,该软件就找到约 400 张可能重复的图像。经过人工鉴定后,Acuna 团队认为,其中的 24 张包含有重复图片,并在 7 月份将之公布在其网站上。

  3、优势和不足

  Acuna 团队的检测结果立即引起轰动。

  因为是通过软件自动检测,可以大规模发现重复的图像;另外可以发现人工不能识别的图像。

  收到 email 通知后一些论文作者立即回应,承认该软件找到的是重复图片,并表示将纠正错误。芬兰赫尔辛基大学病毒学家 Giuseppe Ballistreri 更是建议在 PubMed 数据库中应用该软件。

  著名学术打假人伊丽莎白?比克(Elisabeth Bik)在赞许之余,也建议在正式公布软件识别的造假图片之前,由她做鉴定。因为该软件识别出的 「嫌疑图片」 仍然需要人工确认。

  但也有一些收到通知的学者说,Acuna 的软件搞错了,标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求 Acuna 删除其网站公示,因为 Acuna 软件对其论文图片做了错误识别。

  4、进一步处理方法

  基于上述反馈,Acuna 已经将其识别出来的 「造假图片」 由网站公示改为私下访问。只有从他的 email 通知的学者,才能凭借给予的密码进行访问和回复。

  所以设置的 「嫌疑造假图片」 处理流程也变为:先通知作者,如果作者不回复则将公开。

  在初尝战果后,Acuna 也计划扩大软件筛查范围。Acuna 特别告诫说:「我希望作者意识到,有人正在对所有的论文图片进行识别。」


来源于:HANSON

热门评论

写评论…
0

近日,Nature 杂志新闻版发布了一篇重磅消息:论文图片查重软件研发成功,软件开发人员在对 3500 篇预印版论文进行的检测中,找出 24 张涉嫌重复 / 造假的图像。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

这对于论文造假无疑是一记重锤。

疯狂的论文造假

由于存在巨大的利益,论文造假一直屡见不鲜,甚至在部分国家或地区形成了造假论文产业链。

有造假、就有打假;但与庞大的造假数量相比,靠几个志愿者打假,显然是杯水车薪。

中国是重灾区之一

美国 Healsan Consulting LLC 对全球撤稿数据库的分析显示,

  1、中国 SCI 论文撤稿占到所有撤稿的 44.0%。

  截止到 2020 年 6 月 22 日,世界范围内共有 23,425 篇 SCI 撤稿,其中中国有 10,303 篇,远远高于第二位的美国 4,125 篇。中国论文撤稿占 44%。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

  (图 1. Credit:Healsanconsulting LLC, USA)

  2、剽窃仍然是中国 SCI 论文撤稿的首要原因。

  近三年中国 SCI 论文共有 1397 篇 SCI 论文撤稿,其中因为剽窃所致的撤稿有 547 篇(39%),另外错误所致的撤稿有 330 篇(24%)。

Nature:学术造假者的噩梦!论文图像查重软件研发成功,造假图片,无处可藏

  (图 2. Credit:Healsanconsulting LLC, USA)

  图片查重软件应运而生

  上面数据中提到的占撤稿原因 39% 的 「抄袭」,主要是指文字抄袭。因为目前的查重系统只能查文字,不能查图片。

  而撤稿第二常见原因 「错误」 部分,则主要是图片 「错误」。在目前靠人工检查的情况下,就已经发现了大量伪造的图片,可知实际情况多么严重。

  所以当论文图像查重软件的研发者,美国纽约 Syracuse 大学的机器学习研究人员 Daniel Acuna,递交了其第一批图片查重结果时,立即引起学术界的关注。

  1、识别原理

  其基本原理是,将提取图片放大以获得特征性图片数字 「指纹」,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。

  根据 Acuna 研究团队之前的检测结果,他们推测数据库中 1.5% 论文包含有可疑的图像,而 0.6% 论文包含有欺诈性图像。

  2、小试牛刀

  这款软件从 2015 年开始研发,历经 5 年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病(COVID-19)领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播,低质量、甚至造假论文也屡见不鲜。

  Acuna 研究团队从 bioRxiv 和 medRxiv 服务器上下载了 3500 篇论文,总共有 21,000 张图片。在 4 个小时内,该软件就找到约 400 张可能重复的图像。经过人工鉴定后,Acuna 团队认为,其中的 24 张包含有重复图片,并在 7 月份将之公布在其网站上。

  3、优势和不足

  Acuna 团队的检测结果立即引起轰动。

  因为是通过软件自动检测,可以大规模发现重复的图像;另外可以发现人工不能识别的图像。

  收到 email 通知后一些论文作者立即回应,承认该软件找到的是重复图片,并表示将纠正错误。芬兰赫尔辛基大学病毒学家 Giuseppe Ballistreri 更是建议在 PubMed 数据库中应用该软件。

  著名学术打假人伊丽莎白?比克(Elisabeth Bik)在赞许之余,也建议在正式公布软件识别的造假图片之前,由她做鉴定。因为该软件识别出的 「嫌疑图片」 仍然需要人工确认。

  但也有一些收到通知的学者说,Acuna 的软件搞错了,标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求 Acuna 删除其网站公示,因为 Acuna 软件对其论文图片做了错误识别。

  4、进一步处理方法

  基于上述反馈,Acuna 已经将其识别出来的 「造假图片」 由网站公示改为私下访问。只有从他的 email 通知的学者,才能凭借给予的密码进行访问和回复。

  所以设置的 「嫌疑造假图片」 处理流程也变为:先通知作者,如果作者不回复则将公开。

  在初尝战果后,Acuna 也计划扩大软件筛查范围。Acuna 特别告诫说:「我希望作者意识到,有人正在对所有的论文图片进行识别。」