過去的幾年里,120多篇由計算機(jī)自動生成的“論文”被提交給學(xué)術(shù)出版機(jī)構(gòu)并得以發(fā)表。不久前,這些虛構(gòu)的論文被一名法國計算機(jī)科學(xué)家檢測出來,發(fā)現(xiàn)它們幾乎全部來自中國。
事件曝光后,相關(guān)出版機(jī)構(gòu)紛紛撤稿。但人們認(rèn)為對學(xué)術(shù)造假行為的追究不該止于此。這些論文如何產(chǎn)生?作者為何人?這一荒誕離奇之事的背后,到底有什么樣的邏輯和真相?
公眾對學(xué)術(shù)不端往往采取零容忍的態(tài)度,但在學(xué)術(shù)界內(nèi)部,卻早已對各種學(xué)術(shù)不端的行為司空見慣。相較于內(nèi)部舉報,向公眾和媒體曝光似乎成為更有效的監(jiān)督方式。不管其中原因為何,不誠實的行為都會給社會帶來有形無形的損害,而受害者將是所有人。
發(fā)現(xiàn)機(jī)器人論文
西里爾拉貝決定將虛假論文事件公之于眾,他認(rèn)為這些欺詐行為應(yīng)該得到更多的警告,盡管他不是十分清楚人們?yōu)槭裁磿@么做。
拉貝是法國約瑟夫傅立葉大學(xué)的計算機(jī)科學(xué)家,他的研究課題之一便是學(xué)術(shù)論文鑒別。
不過拉貝也曾是“虛假論文”的制作者。早在2010年,拉貝虛擬了一個叫做IkeAntkare的作者,制造了102篇虛假的論文,來測試這些論文是否會被“谷歌學(xué)術(shù)”(GoogleScholar)收錄,他的花招成功了,并且IkeAntkare還成為了世界上第21位被引用次數(shù)最高的“科學(xué)家”。
用虛假論文投稿,證明學(xué)術(shù)會議評審論文極其不嚴(yán)格的做法由來已久。2005年,麻省理工學(xué)院的研究人員發(fā)明了一個叫做SCIgen的計算機(jī)程序,這一程序可以在網(wǎng)上自由使用,任何人能用它快速生成一篇格式規(guī)范、圖文并茂的“論文”,只不過其內(nèi)容是詞匯和句子的無意義組合。拉貝以IkeAntkare的名義提交的論文的真正“作者”便是SCIgen。
SCIgen的開發(fā)者表示這一程序的主要目的是“娛樂”。在SCIgen的官方網(wǎng)頁上,開發(fā)人員建議人們用它生成論文并提交給那些群發(fā)廣告郵件的學(xué)術(shù)會議,“這會給我們帶來無窮的樂趣,事實上我們的一篇論文竟然被SCI(作者注:科學(xué)引文索引,是國際公認(rèn)的進(jìn)行科學(xué)統(tǒng)計與科學(xué)評價的主要檢索工具)接受了!”
既然如此,“其他的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫是否存在同樣的問題?”拉貝告訴時代周報,他希望繼續(xù)求證,但是不想再用“欺騙”的老辦法,而是決定研發(fā)針對SCIgen論文的鑒別技術(shù),直接找出這些由機(jī)器制造的論文。
“這些自動生成的論文是否也可以被自動檢測出來?我的答案是肯定的。”拉貝說。2012年,他成功開發(fā)出了自己的鑒別技術(shù),并將成果發(fā)表在《科學(xué)計量學(xué)》雜志上。
與此同時,拉貝利用自己的檢測軟件檢測出了85篇由SCIgen生成的虛假論文,它們均被IEEE文獻(xiàn)數(shù)據(jù)庫收錄。據(jù)了解,IEEE文獻(xiàn)數(shù)據(jù)庫主要涉及計算機(jī)科學(xué)、電機(jī)工程學(xué)和電子學(xué)等領(lǐng)域,隸屬于美國電氣和電子工程師協(xié)會(IEEE),后者是全球最大的國際性的電子技術(shù)與信息科學(xué)工程師協(xié)會。
拉貝將這一情況告知IEEE后,對方刪除了這些論文,為此他當(dāng)時并沒有曝光此事。幾個月后,拉貝又在IEEE文獻(xiàn)數(shù)據(jù)庫中發(fā)現(xiàn)了新的一批SCIgen論文,拉貝再次與對方聯(lián)系,“不過這一次,他們好像自己已經(jīng)發(fā)現(xiàn)了,F(xiàn)在IEEE數(shù)據(jù)庫似乎已經(jīng)被清理‘干凈’了!
差不多同時,拉貝在德國學(xué)術(shù)出版機(jī)構(gòu)Springer的數(shù)據(jù)庫中發(fā)現(xiàn)了另一批SCIgen論文,其中有一些是在2013年最新發(fā)表的。拉貝前后發(fā)現(xiàn)的SCIgen論文總共加起來有120多篇。
盡管拉貝的工具在檢測SCIgen論文上十分有效,但也只能應(yīng)對一時。他告訴時代周報,現(xiàn)在至少有兩種SCIgen程序的翻版,一個用在數(shù)學(xué)領(lǐng)域,一個用在物理學(xué)領(lǐng)域!笆袌錾稀笔欠襁有其他論文生成器?沒有人知道。
“就像對付那些剽竊行為一樣,他們也該刊登公示,但看上去他們只是移除了這些論文了事!崩愓f。今年年初,對出版方的處理方式感到不滿的他向《自然》雜志披露了此事。
相關(guān)閱讀