六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學(xué)習(xí)啦>論文大全>學(xué)術(shù)論文>

學(xué)術(shù)論文復(fù)制檢測(cè)的研究進(jìn)展及新方法探討論文

時(shí)間: 謝樺657 分享

  隨著互聯(lián)網(wǎng)、數(shù)字圖書(shū)館和數(shù)字化分布式媒體的發(fā)展,海量信息以各種形態(tài)充斥著我們的日常生活。豐富的數(shù)字化資源給人們提供便利的同時(shí),也給復(fù)制抄襲行為提供了滋生的溫床。尤其是近幾年來(lái),學(xué)術(shù)造假、論文剽竊等一系列學(xué)術(shù)不端事件屢見(jiàn)不鮮。為此,通過(guò)設(shè)計(jì)并實(shí)現(xiàn)有效的抄襲檢測(cè)系統(tǒng),從技術(shù)層面上防止學(xué)術(shù)抄襲、抵制學(xué)術(shù)造假具有重要的理論意義和使用價(jià)值。以下是學(xué)習(xí)啦小編為大家精心準(zhǔn)備的:學(xué)術(shù)論文復(fù)制檢測(cè)的研究進(jìn)展及新方法探討相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!

  學(xué)術(shù)論文復(fù)制檢測(cè)的研究進(jìn)展及新方法探討全文如下:

  [摘要] 綜述國(guó)內(nèi)外學(xué)術(shù)論文復(fù)制檢測(cè)的研究現(xiàn)狀,針對(duì)存在的問(wèn)題提出以后研究的新思路:構(gòu)建某一學(xué)科領(lǐng)域?qū)W術(shù)論文語(yǔ)料庫(kù);以信息論為工具,針對(duì)某學(xué)科領(lǐng)域建立基于學(xué)術(shù)論文語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型;結(jié)合學(xué)術(shù)論文抄襲剽竊的特點(diǎn),通過(guò)賦予描述資源對(duì)象語(yǔ)義信息的不同元數(shù)據(jù)項(xiàng)以不同的權(quán)函數(shù),設(shè)計(jì)相似度算法;使用Lemur工具箱,在標(biāo)準(zhǔn)的TREC文檔集上對(duì)模型和算法進(jìn)行檢驗(yàn);與Turnitin偵探剽竊系統(tǒng)進(jìn)行實(shí)驗(yàn)對(duì)比,評(píng)價(jià)該模型和算法的有效率和效果。

  [關(guān)鍵詞] 學(xué)術(shù)論文 復(fù)制檢測(cè) 抄襲剽竊檢測(cè) 統(tǒng)計(jì)語(yǔ)言模型 文本相似度算法

  自從方舟子的“新語(yǔ)絲”使原本長(zhǎng)期存在于學(xué)術(shù)界的學(xué)術(shù)不端暴露出來(lái)之后,學(xué)術(shù)論文抄襲剽竊引起社會(huì)的廣泛關(guān)注。抄襲剽竊的表現(xiàn)形式多種多樣:有些只是在語(yǔ)言文字的表達(dá)形式上做手腳,換成同義詞或顛倒語(yǔ)句的表達(dá)順序,在文章框架、主要觀點(diǎn)和主要論據(jù)上卻沒(méi)有大的變化;有些直接大段地“引用”別人的內(nèi)容;有些綜合運(yùn)用多種手段,將多篇?jiǎng)e人的文章拼湊而成自己的;有些“學(xué)術(shù)高手”直接拿國(guó)外的論文翻譯成中文發(fā)表,等等。抄襲和剽竊“手段”的越來(lái)越“高明”,給抄襲剽竊檢測(cè)帶來(lái)很大困難。抄襲檢測(cè)又叫復(fù)制檢測(cè)、剽竊檢測(cè)或副本檢測(cè),根據(jù)檢測(cè)對(duì)象性質(zhì)不同可分為圖像、聲音和文本復(fù)制檢測(cè)。學(xué)術(shù)論文抄襲檢測(cè)是文本復(fù)制檢測(cè)的一種,歸根到底是判斷兩篇學(xué)術(shù)論文的相似程度。“召回率”和“精準(zhǔn)率”是判斷檢測(cè)算法好壞的兩個(gè)重要指標(biāo)。為了進(jìn)一步提高學(xué)術(shù)論文復(fù)制檢測(cè)判斷的準(zhǔn)確率,針對(duì)學(xué)術(shù)論文的文檔相似度算法的改進(jìn)和創(chuàng)新研究變得尤為重要。

  1 國(guó)內(nèi)外研究現(xiàn)狀及存在的問(wèn)題

  1.1 國(guó)外研究現(xiàn)狀

  國(guó)外具有代表性的文檔相似度算法主要有以下幾種:①M(fèi)anber提出一個(gè)sif工具,其“近似指紋”是用基于字符串匹配的方法來(lái)度量文件之間的相似性;②Brin等在“數(shù)字圖書(shū)館”工程中首次提出文本復(fù)制檢測(cè)機(jī)制COPS(copy protection system)系統(tǒng)與相應(yīng)算法,奠定了論文抄襲檢測(cè)系統(tǒng)的基礎(chǔ);③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改進(jìn)了COPS系統(tǒng),用于發(fā)現(xiàn)知識(shí)產(chǎn)權(quán)沖突。他使用基于詞頻統(tǒng)計(jì)的方法來(lái)度量文本相似性,后來(lái)把檢測(cè)范圍從單個(gè)注冊(cè)數(shù)據(jù)庫(kù)擴(kuò)展到分布式數(shù)據(jù)庫(kù)上以及在Web上探測(cè)文本復(fù)制的方法;④貝爾實(shí)驗(yàn)室的Heintze開(kāi)發(fā)了KOALA系統(tǒng)用于剽竊檢測(cè),采用與sif基本相同的算法;⑤si和Leong等人建立的CHEC系統(tǒng)首次把文檔結(jié)構(gòu)信息引入到文本相似性度量中;⑥Stein提出一種方法,這種方法能產(chǎn)生一種“指紋”,在某種程度上能有效防止修改;⑦M(jìn)eyerzuEissen等提出通過(guò)根據(jù)寫(xiě)作風(fēng)格上的變化來(lái)分析單篇文檔,從而決定是否有潛在抄襲;⑧美國(guó)學(xué)校首先引入Tumitin偵探剽竊數(shù)據(jù)庫(kù),用于防止論文抄襲,此外還有其他類(lèi)似軟件系統(tǒng)用于進(jìn)行文檔相似度分析。當(dāng)然不同的檢測(cè)系統(tǒng)其相似度算法的精度也不盡相同。

  1.2 國(guó)內(nèi)研究現(xiàn)狀

  國(guó)內(nèi)關(guān)于論文抄襲剽竊檢測(cè)方面已有一些研究:①?gòu)埶?#65533;通過(guò)對(duì)中文文本進(jìn)行自動(dòng)分詞,然后計(jì)算它們的相似度,從而判別文本是否抄襲,其對(duì)應(yīng)裝置包括:樣本輸入裝置、樣本數(shù)據(jù)庫(kù)、自動(dòng)分句分詞裝置、分詞數(shù)據(jù)庫(kù)、預(yù)處理裝置、特征詞數(shù)據(jù)庫(kù)、相似判別裝置、判別結(jié)果輸出裝置和控制處理裝置等。②鮑軍鵬通過(guò)文本的結(jié)構(gòu)信息和語(yǔ)義信息提取文本特征,是通過(guò)運(yùn)用文本剽竊判定模塊中設(shè)定的探針?lè)ǎ烙?jì)待檢測(cè)文本特征和特征庫(kù)中的文本特征的最大共同語(yǔ)義,并給出文本雷同度量,從而判別文本是否抄襲。③沈陽(yáng)是通過(guò)先找到存儲(chǔ)空間內(nèi)的格式遺留,再將這些遺留格式附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻(xiàn)庫(kù)中的文獻(xiàn)內(nèi)容進(jìn)行比較,從而減少被檢測(cè)文檔的數(shù)據(jù)量,加快了反剽竊或轉(zhuǎn)載文檔檢測(cè)速度。④張履平通過(guò)對(duì)已植入水印的文章進(jìn)行特征擷取,根據(jù)所取得的詞匯輸入搜尋引擎以搜尋相關(guān)可疑文章;根據(jù)與原文比對(duì)結(jié)果取得的句子進(jìn)行水印解析;將所取得的水印信息與原來(lái)的水印比對(duì),從而判斷是否為剽竊。⑤金博等則對(duì)基于篇章結(jié)構(gòu)相似度的復(fù)制檢測(cè)算法有一些研究。

  1.3 存在的問(wèn)題

  事實(shí)上,由于剽竊形式的多樣性和隱蔽性、語(yǔ)法和句法的復(fù)雜性等,目前主要采用的“數(shù)字指紋”和詞頻統(tǒng)計(jì)兩大類(lèi)抄襲識(shí)別技術(shù)已經(jīng)不能滿(mǎn)足實(shí)際的剽竊檢測(cè)需求,會(huì)造成很多漏檢和誤檢,其“召回率”和“精準(zhǔn)率”都有待提高。歸根到底是因?yàn)槠錂z索模型有待突破,算法亟待改進(jìn)或需創(chuàng)造全新的算法來(lái)針對(duì)學(xué)術(shù)論文抄襲剽竊檢測(cè)的實(shí)際。如何把握并充分利用學(xué)術(shù)論文的結(jié)構(gòu)和語(yǔ)言特征,提供具有針對(duì)性的檢索模型和相似度算法及其實(shí)現(xiàn)系統(tǒng),對(duì)能否在異構(gòu)的分布式學(xué)術(shù)論文資源系統(tǒng)中,對(duì)抄襲剽竊檢測(cè)進(jìn)行更精確的判斷至關(guān)重要。

  2 學(xué)術(shù)論文復(fù)制檢測(cè)研究的新思路

  針對(duì)以上問(wèn)題,筆者提出以下學(xué)術(shù)論文復(fù)制檢測(cè)研究的新思路:①建立有針對(duì)性的學(xué)術(shù)論文語(yǔ)料庫(kù);②通過(guò)對(duì)語(yǔ)料庫(kù)的深層加工、統(tǒng)計(jì)和學(xué)習(xí),建立統(tǒng)計(jì)語(yǔ)言模型;③充分利用學(xué)術(shù)論文著錄項(xiàng)目自身的特點(diǎn),通過(guò)將文檔結(jié)構(gòu)化,賦予元數(shù)據(jù)項(xiàng)加權(quán)系數(shù),運(yùn)用卷積計(jì)算學(xué)術(shù)論文的相似度;④利用支持網(wǎng)絡(luò)語(yǔ)言的JAVA編程實(shí)現(xiàn)相似度算法;⑤通過(guò)將待檢測(cè)論文與數(shù)據(jù)庫(kù)中已有文獻(xiàn)對(duì)比,計(jì)算其相似度,當(dāng)相似度超過(guò)某一閾值時(shí),則判斷該論文有抄襲的可能,如圖1所示:

  3 具體方法及步驟

  3.1 建立某一學(xué)科專(zhuān)業(yè)的學(xué)術(shù)論文語(yǔ)料庫(kù)

  新一代的兆億級(jí)的大規(guī)模語(yǔ)料庫(kù)可以作為語(yǔ)言模型的訓(xùn)練和測(cè)試手段,用以評(píng)價(jià)一個(gè)語(yǔ)言模型的質(zhì)量。本文建立的語(yǔ)料庫(kù)中存放的是在學(xué)術(shù)論文語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的學(xué)術(shù)論文語(yǔ)言材料;是以電子計(jì)算機(jī)為載體,承載學(xué)術(shù)資源語(yǔ)言知識(shí)的基礎(chǔ)資源;通過(guò)對(duì)真實(shí)語(yǔ)料進(jìn)行分析和處理等加工,使之成為本文的學(xué)術(shù)論文抄襲檢測(cè)模型和算法的訓(xùn)練與測(cè)試手段。

  利用豐富的學(xué)術(shù)資源數(shù)據(jù)庫(kù),如Dialog、SCI、EI、INSPE、IEEE、Science Direct、EBSCO、PQDD、SPRINGERLINK、KLUWER、Science online、Medline、CNKI、中文科技期刊全文數(shù)據(jù)庫(kù)、萬(wàn)方數(shù)據(jù)科技信息子系統(tǒng)、萬(wàn)方數(shù)據(jù)商業(yè)信息子系統(tǒng)、七國(guó)兩組織的專(zhuān)利數(shù)據(jù)庫(kù)、國(guó)內(nèi)外專(zhuān)利數(shù)據(jù)庫(kù)等異構(gòu)的分布資源,通過(guò)信息檢索,從某一學(xué)科專(zhuān)業(yè)著手,構(gòu)建某一學(xué)科專(zhuān)業(yè)領(lǐng)域的學(xué)術(shù)論文語(yǔ)料庫(kù)。

  3.2 以信息論為工具,創(chuàng)建統(tǒng)計(jì)語(yǔ)言模型用于學(xué)術(shù)論文檢索

  數(shù)學(xué)是解決信息檢索和自然語(yǔ)言處理的最好工具。其實(shí)早在幾十年前,數(shù)學(xué)家兼信息論專(zhuān)家香農(nóng)(Claude Shannon)就提出了用數(shù)學(xué)方法處理自然語(yǔ)言的想法。語(yǔ)音和語(yǔ)言處理大師賈里尼克(Fred Je-

  linek)首先成功利用數(shù)學(xué)方法解決了自然語(yǔ)言處理問(wèn)題。統(tǒng)計(jì)語(yǔ)言模型(即基于統(tǒng)計(jì)的語(yǔ)言模型)通常是概率模型,計(jì)算機(jī)借助于統(tǒng)計(jì)語(yǔ)言模型的概率參數(shù),可以估計(jì)出自然語(yǔ)言中每個(gè)句子出現(xiàn)的可能性,而不是簡(jiǎn)單地判斷該句子是否符合文法。統(tǒng)計(jì)語(yǔ)言模型以概率頒布的形式描述了任意語(yǔ)句(字符串)s屬于某種語(yǔ)言集合的可能性,需要對(duì)任意的語(yǔ)句s都給出一個(gè)概率值,例如:P(他/認(rèn)真/學(xué)習(xí))=0.02。本文充分利用學(xué)術(shù)論文不同于報(bào)紙新聞?wù)撐幕蚱渌?lèi)型文檔的語(yǔ)言特點(diǎn),以建立的學(xué)術(shù)論文語(yǔ)料為訓(xùn)練和測(cè)試基礎(chǔ),提出新的基于學(xué)術(shù)論文的統(tǒng)計(jì)語(yǔ)言模型作為針對(duì)學(xué)術(shù)論文抄襲剽竊檢測(cè)算法的檢索語(yǔ)言模型。具體做法為:以信息論為工具,把握學(xué)術(shù)論文的語(yǔ)言特點(diǎn),通過(guò)對(duì)以上所建立的學(xué)科專(zhuān)業(yè)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí),獲取大規(guī)模真實(shí)學(xué)術(shù)論文語(yǔ)料中的語(yǔ)言知識(shí),建立基于學(xué)術(shù)論文語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型;通過(guò)實(shí)驗(yàn),與其他文本信息檢索模型進(jìn)行比較,論證其有效性。

  3.3 利用學(xué)術(shù)論文中描述資源對(duì)象語(yǔ)義信息的元數(shù)據(jù)結(jié)構(gòu),計(jì)算文檔相似度

  充分利用正式出版的學(xué)術(shù)論文的結(jié)構(gòu)特點(diǎn),根據(jù)學(xué)術(shù)論文中標(biāo)引出的K個(gè)描述資源對(duì)象語(yǔ)義信息的元數(shù)據(jù)(Di,i=1,2…k),將學(xué)術(shù)論文結(jié)構(gòu)化;然后利用已有的基于學(xué)術(shù)論文語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型,將待比較的論文的各相同元數(shù)據(jù)Di(i=1,2…k)部分進(jìn)行比對(duì)得相似度si,再根據(jù)元數(shù)據(jù)對(duì)論文的重要程度給定第i個(gè)元數(shù)據(jù)項(xiàng)相似度權(quán)函數(shù)wi;則整篇學(xué)術(shù)論文總體的相似度為Sd=∑Wi*Si。

  具體算法舉例如下:

  將待檢測(cè)的學(xué)術(shù)論文的元數(shù)據(jù)如題名Til、關(guān)鍵詞Kyl、摘要Abl、正文.Tel、參考文獻(xiàn)Rel等元數(shù)據(jù)字段抽取出來(lái),與語(yǔ)料庫(kù)中已有論文的相應(yīng)元數(shù)據(jù)字段內(nèi)容題名Ti2、關(guān)鍵詞Ky2、摘要Ab2、正文Tx2、參考文獻(xiàn)Re2進(jìn)行相似度計(jì)算。計(jì)算時(shí),在篇名字段前給以0.25,0.4,0.15,0.1和0.1的加權(quán)系數(shù)。建立的統(tǒng)計(jì)語(yǔ)言模型計(jì)算待測(cè)論文和語(yǔ)料庫(kù)中已出版的論文j同一元數(shù)據(jù)字段的內(nèi)容相似程度,記為:Sim_Tij,sim―Kyj,Sim_Abj,Sire Tej,Sim_Rej,卷積后得整篇論文與語(yǔ)料庫(kù)中某篇論文j的相似程度值計(jì)算公式為:Sinai―larity_paper_j=0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej;再計(jì)算與待檢測(cè)論文最相似的那個(gè)最大相似度Max_Similarity=Max{Simflarity_paper_j};如果Max_Similarity大于設(shè)定的閥值1(如40%),則判斷為疑似抄襲,這樣的論文需要審稿專(zhuān)家仔細(xì)認(rèn)真審理,如果Max_Similarity大于設(shè)定的閥值2(比設(shè)定的閥值1大,如80%),這樣的論文極有可能存在抄襲,需要審稿專(zhuān)家特別注意。在計(jì)算相似度值后,計(jì)算機(jī)系統(tǒng)記錄下相似度高于設(shè)定閥值的抄襲和被抄襲的學(xué)術(shù)論文來(lái)源、相似度值、及其各元數(shù)據(jù)項(xiàng)信息(包括作者信息)。以上各元數(shù)據(jù)項(xiàng)相似度計(jì)算過(guò)程中,加權(quán)系數(shù)可以根據(jù)需要做適當(dāng)調(diào)整為其他數(shù)值,但系數(shù)總和為1。

  3.4 推廣使用

  通過(guò)對(duì)某一學(xué)科專(zhuān)業(yè)的研究,進(jìn)一步拓展到其他學(xué)科領(lǐng)域,從而最終實(shí)現(xiàn)在異構(gòu)的分布式學(xué)術(shù)論文資源系統(tǒng)中,對(duì)各個(gè)學(xué)科領(lǐng)域的學(xué)術(shù)論文抄襲剽竊進(jìn)行跨平臺(tái)檢測(cè)。

  4 研究展望及難點(diǎn)、解決辦法

  今后的研究主要是將以上思想和方法步驟通過(guò)實(shí)驗(yàn)進(jìn)行論證。通過(guò)JAVA編程實(shí)現(xiàn)算法,同時(shí)能實(shí)現(xiàn)對(duì)于空間地址分布和數(shù)據(jù)異構(gòu)的學(xué)術(shù)資源進(jìn)行跨平臺(tái)的復(fù)制檢測(cè)。使用支持語(yǔ)言模型的Lemur工具箱,在標(biāo)準(zhǔn)的TREC文檔集上做測(cè)試試驗(yàn),并對(duì)算法的召回率和精準(zhǔn)率作出量化;選擇與Turnitin偵探剽竊系統(tǒng)進(jìn)行實(shí)驗(yàn)對(duì)比,評(píng)價(jià)該基于學(xué)術(shù)論文語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型及算法。

  研究的難點(diǎn)主要在于:①對(duì)學(xué)術(shù)論文語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí),獲取大規(guī)模學(xué)術(shù)論文語(yǔ)言知識(shí);②計(jì)算學(xué)術(shù)論文相似度時(shí),不同元數(shù)據(jù)項(xiàng)其權(quán)函數(shù)的確定;③思想剽竊、風(fēng)格剽竊等深度剽竊特征的提取;④自然語(yǔ)言中的多詞一義易造成漏檢(漏判)等。為了解決以上問(wèn)題,可以聯(lián)合數(shù)據(jù)庫(kù)商,構(gòu)建某一學(xué)科專(zhuān)業(yè)領(lǐng)域的語(yǔ)料庫(kù),并從大量科技查新工作等實(shí)際檢索實(shí)踐中,統(tǒng)計(jì)出不同元數(shù)據(jù)項(xiàng)對(duì)相似度算法的貢獻(xiàn)率來(lái)進(jìn)一步確定不同元數(shù)據(jù)項(xiàng)權(quán)函數(shù)。語(yǔ)境框架是一個(gè)三維的語(yǔ)義描述,它把文本內(nèi)容抽象成領(lǐng)域(靜態(tài)范疇)、情景(動(dòng)態(tài)描述)、背景(褒貶、參照等)3個(gè)框架,應(yīng)在語(yǔ)境框架的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)對(duì)思想剽竊、風(fēng)格剽竊等深度剽竊特征的提取算法。通過(guò)構(gòu)建學(xué)科專(zhuān)業(yè)學(xué)術(shù)論文關(guān)鍵詞詞典和利用同義詞詞林,可以克服多詞一義時(shí)的漏檢,提高招回率。

相關(guān)文章:

1.學(xué)術(shù)論文批評(píng)性言語(yǔ)研究論文

2.視頻技術(shù)下的機(jī)場(chǎng)場(chǎng)面監(jiān)視系統(tǒng)簡(jiǎn)述論文

3.英語(yǔ)學(xué)術(shù)論文中的學(xué)術(shù)詞匯研究論文

4.英語(yǔ)學(xué)術(shù)論文中模糊限制語(yǔ)的使用對(duì)比研究論文

5.論述發(fā)酵生產(chǎn)谷胱甘肽的研究進(jìn)展論文

522361