正在阅读: 美研究员开发新算法打击学术造假 用AI查重论文图片

美研究员开发新算法打击学术造假 用AI查重论文图片

2019-01-16 09:30来源:中国青年报

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  有图无真相

  在打击学术造假的征途上,学术规范机构又下一城。

  来自美国纽约雪城大学(Syracuse University)的机器学习研究员丹尼尔·阿库纳(Daniel Acuna)等在2018年开发出一套算法,能利用人工智能(AI)识别学术论文中的图像造假,对论文图片进行查重。

  他们分析了生命科学领域来自4324本期刊的76万篇开放获取(Open Access)论文,并从中提出有效的263万张图片。其中,约有9%的图像存在高度重复。该团队又在其中选取了约4000张可疑图片进行人工核查。经测算,在所有论文中,约1.5%存在学术不端的嫌疑,0.6%确认存在图像方面的论文造假。

  在学术造假上,图片是藏污纳垢的死角。《科学》(Science)杂志和《撤稿观察》(Retraction Watch)2018年发布报告称,在过去10年里,学术期刊撤回的论文数量增加了10倍。这些论文中,约有1.7%是因为篡改了论文图像被撤回。

  美国宾夕法尼亚大学生物工程副教授阿荣·拉杰(Arjun Raj)早在2012年就指出,一篇生命科学领域的研究论文背后的科学成本约为30万-50万美元。2012年全年,美国研究人员共发表该领域论文15.2万篇。如果其中1.7%因图片造假需要被撤回,则仅在2012年,因此造成的损失就接近10亿美元。

  根据出版机构的统计,全球科学产量每9年就会翻番。

  过去,图片审核工作往往要靠人力完成,几乎没有自动化的流程。《自然》(Nature)杂志会对收到的稿件随机抽样进行检查,并要求作者提供未编辑的图像作参考;生命科学领域的重要刊物《细胞生物学杂志》(Journal of Cell Biology)和《欧洲分子生物学组织杂志》(The EMBO Journal)会对图片进行手动查重。

  2018年6月,来自斯坦福大学的微生物学家分析了2009-2016年发表在《分子与细胞生物学》(Molecular and Cellular Biology)上的960篇论文,发现其中59篇含有“不适当的”重复图像,约有2%值得再去进行图像证伪。他们将情况反映给出版机构后,42篇论文更正了图片,5篇被撤稿。

  图片查重费时费力,以至于多数刊物都没有这项流程。《欧洲分子生物学组织杂志》主编表示,人工筛选非常耗时,早就应该有一个常规的、自动化的工具简化这一过程。

  美国诚信研究办公室(the United States Office of Research Integrity, 简称ORI)的数据显示,图片造假的情况一直在恶化,标志性的两个时间是1990年和1996年,Photoshop的Mac版和PC版在这两年发布。

  但即使是ORI,每年也仅报告了10例图片造假的行为。因为成本过高,他们不会主动审查学术不端,仅在有举报的情况下进行。

  自诞生起,学术论文就承担着描述科研成果、进行学术交流的重任。它还被用来衡量学者的学术水平,是评定职称、获取科研经费等环节中考察的重要的内容。因此,判断一篇学术论文是否由抄袭、造假得来至关重要。

  在计算机技术不够发达、数据库尚未开放共享的时代,识别学术不端不得不依靠评审编辑慧眼如炬。在中国,论文文字查重体系一直到2005年前后才建立。后来,人们又不断优化这个系统,从能识别“复制粘贴型”抄袭,到能识别改变用词和句法的抄袭,但图片重复一直是论文查重的死角。

  道高一尺,魔高一丈,心怀不轨的研究人员已经学会了应付能识别文字抄袭的系统。在生命科学等依赖图像实物的研究领域,图片造假的难度和成本会更高。

  2014年轰动学术圈的小保方晴子学术造假丑闻中,她的团队被发现使用了小保方晴子博士学位论文中的图片,用来证明新的发现。更多时候,造假来得更隐秘,研究人员用旋转、裁剪、调整大小和对比度的方式调整图片。它们常常难以被察觉,直到前赴后继的科研人员发现研究成果无法复现。此时,大量的人力和资金成本都被浪费了。

  如何解决这个问题,仍然是摆在我们面前的一座大山。即使是丹尼尔·阿库纳等人开发出的算法,也面临很大的困难。在每一个领域,我们需要专业人士进行足够数量的前期人工标注。

  这套算法的运算速度也有限,目前只能考察作者自己发表的诸多论文中是否存在重复,尚无法应对以亿为单位的出版文献库。出版巨头爱思唯尔(Elsevier)诚信部门主管也表示,出版商需要创建一个共享的数据库,以便进行相关检索,查实论文图片重复使用的情况。

  我们似乎无法阻止“魔”的存在,只能努力让“道”高得快一点(王嘉兴)。

[责编:曾震宇]

阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 国家一级保护动物川陕哲罗鲑全人工繁殖成功

  • 巴西:洪灾持续肆虐

独家策划

推荐阅读
如果未来人类想在火星上生活,可能需在驻地种植作物。实验结果显示,与在同一地块只种植一种作物的单作相比,间作的番茄产量显著提高,但胡萝卜产量却明显降低,豌豆的产量则没有太大不同。
2024-05-07 10:08
乌鸦、黑猩猩、大象和其他许多鸟类与哺乳动物的行为方式表明它们可能有“意识”。该宣言指出,对于可能有意识体验的动物而言,人类在影响它们的决策中忽视这种可能性是不负责任的表现。
2024-05-07 10:07
世界经济论坛官网近日报道指出,为让人工智能(AI)发挥其变革潜力、提高生产力水平及社会福祉,人类必须确保它可持续地发展。这一愿景面临的核心难题在于,随着算力和性能的不断提升,能耗也在快速增长。
2024-05-07 10:04
5月6日,中国科学技术大学研究团队在京发布新成果。他们将自主研发的“光子盒”排布成阵列,在国际上首次实现了基于光子的分数量子反常霍尔态,为物理学家创造出一种研究分数量子霍尔效应的新平台。
2024-05-07 10:03
作为一种新的经济业态,低空经济具有高科技主导、高效能运营和高质量发展等新质生产力的核心特征,具有广阔的发展前景,是我国抢占发展机遇、推动高质量发展、建立现代化产业体系的重要布局。
2024-05-07 09:59
为基于任意子的量子信息处理迈出了重要一步。
2024-05-06 18:11
近日,全球精度最高的月球地质图集由中国科学院在京正式发布,图集囊括月球地形地貌、地质构造、岩石类型和演化历史,是探月工程取得的重大阶段性成果。与阿波罗计划时期的月球地质图相比,
2024-05-06 07:45
前不久,南开大学中国式现代化乡村工作站首期站长培训班举办,来自全国各省份的132名乡村工作站站长参加培训,取得了良好效果。南开大学中国式现代化乡村工作站于去年启动建设,
2024-05-06 07:45
锻炼对身体有益似乎已是公认常识,但这其实是一个笼统的认知,人们对其分子层面的奥秘还不甚了解。
2024-05-06 09:30
农业主导品种主推技术已持续推介发布20年,是农业科技推广标志性工作之一。
2024-05-06 09:30
研究发现,血管舒张能力受损可能会增加患动脉粥样硬化的风险,进而增加心脏病发作和中风的风险。
2024-05-06 09:30
近年来,国产科幻影视剧《流浪地球2》和《三体》火热“出圈”,获得全球关注。
2024-04-30 03:05
酚醛树脂是人类历史上第一种人工合成塑料,自诞生以来已经历了一个世纪。
2024-04-30 03:05
近日,云南农业大学盛军、田洋教授课题组突破核桃油抗氧化难题,研发出替代植脂末的核桃植物基奶粉,并实现成果转化和应用,相关研究成果在国际期刊《食品工程学报》发表。
2024-04-30 03:05
有一个名字,总是让人心生自豪——广袤大地纵横驰骋,“流动的中国”以最直观的方式,将“中国速度”呈现给世界。
2024-04-30 03:05
在2024中关村论坛年会“人工智能主题日”活动现场,多项人工智能领域前沿技术、数据要素、生态培育、产教融合、场景应用、监管治理等多方面成果精彩亮相,百余位人工智能领域专家围绕大模型、具身智能、可信AI等国内外前沿热点话题展开讨论。
2024-04-30 03:05
光明日报教育周刊近期推出的《科学教育提质正当时》系列报道,从师资培养、课程设置、资源建设等多方面,对如何更好进行中小学科学教育展开了持续讨论,并提出了一系列推动科学教育发展的有效建议,在科学界、科学教育界引发热议。
2024-04-30 03:30
“中国共有独角兽企业369家。《中国独角兽企业发展报告(2024年)》由中关村独角兽企业发展联盟联合毕马威企业咨询(中国)有限公司、长城战略咨询、北京方迪经济发展研究院、清华大学中国科技政策研究中心共同发布。
2024-04-29 10:09
截至目前,神舟十七号航天员乘组已完成全部既定任务,将于4月30日乘坐神舟十七号载人飞船返回东风着陆场。
2024-04-29 10:07
2024年3月5日,习近平总书记在参加十四届全国人大二次会议江苏代表团审议时强调,要牢牢把握高质量发展这个首要任务,因地制宜发展新质生产力。 以创新为核心,通过技术创新、管理创新和模式创新,提升生产力整体水平,推动航空产业加快发展。
2024-04-29 10:06
加载更多