本站小編為你精心準(zhǔn)備了期刊引文有效性識別研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引文有效性的定義及分析引文
引用是否有效的核心是施引論文中的觀點是否真實有效的出現(xiàn)在被引文獻(xiàn)之中。一般來說,引用參考文獻(xiàn)通常有4種情況:1)引用有歷史背景和意義的文獻(xiàn);2)引用實驗中的方法;3)引用支持性或批判性的證據(jù);4)引用相關(guān)文獻(xiàn)用于比較??蒲泄ぷ髡叱鲇谏鲜瞿康脑谝盟说母拍?、數(shù)據(jù)、觀點時出于表達(dá)的需要,通常有直接引用、間接引用、轉(zhuǎn)引以及隱含引用幾種情況。無論哪種引用目的、哪種引用方式,參考文獻(xiàn)的觀點、數(shù)據(jù)、表述需要真實有效的出現(xiàn)在施引文獻(xiàn)中,方可判定引文是有效引用。鑒于參考文獻(xiàn)表明了科學(xué)研究的某種繼承性,本文認(rèn)為在施引文獻(xiàn)和參考文獻(xiàn)之間天然存在相關(guān)性,但一般情況下兩者之間并不存在上下關(guān)系、同義關(guān)系或整體———部分等相關(guān)關(guān)系,施引文獻(xiàn)和參考文獻(xiàn)的整體相關(guān)性并不高。施引文獻(xiàn)和參考文獻(xiàn)兩者相關(guān)只是因為施引文獻(xiàn)引用了參考文獻(xiàn)中的部分內(nèi)容、觀點或數(shù)據(jù),即參考文獻(xiàn)被引用的內(nèi)容和施引文獻(xiàn)中引用的內(nèi)容具有相似性。一般來說,直接引用的內(nèi)容相似性高,間接引用或轉(zhuǎn)引的內(nèi)容相似性略低。因此本文認(rèn)為,如施引文獻(xiàn)中引用的文字內(nèi)容與參考文獻(xiàn)中的某段表述、數(shù)據(jù)、觀點具有相似性,則稱為引文有效,否則則稱為引文無效。對引文有效性的識別可用參考文獻(xiàn)與施引文獻(xiàn)引用的文本內(nèi)容的相似性程度進(jìn)行度量。
2文本相似度計算
一般來說,相關(guān)文本的兩個或多個變量之間存在以下依存關(guān)系:上下關(guān)系、同義關(guān)系、反義關(guān)系、整體———部分關(guān)系,主體———屬性關(guān)系等,反映出文本變量之間的關(guān)聯(lián)。相似文本的變量之間則一般表現(xiàn)為同義關(guān)系、上下關(guān)系、整體———部分關(guān)系。由于應(yīng)用場景以及需要解決問題、達(dá)成目標(biāo)的差異性,學(xué)界對文本相似度尚沒有統(tǒng)一定義。本文認(rèn)為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進(jìn)行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個數(shù)值進(jìn)行度量。相似性越強,數(shù)值越接近1(意味著比較的文本完全相同);相似性越弱,數(shù)值越接近0(意味著比較的文本完全不同)。
對引文有效性的識別即對引用內(nèi)容與參考文獻(xiàn)內(nèi)容相似度的計算。本文的引文有效性識別方法主要分成3步:文本表示,特征詞權(quán)重確定,相似度計算。3.1參考文獻(xiàn)的文本表示文本表示是指從參考文獻(xiàn)和引用內(nèi)容中抽取出能體現(xiàn)參考文獻(xiàn)主要內(nèi)容的特征詞,以形成參考文獻(xiàn)的向量表示,包括參考文獻(xiàn)和施引文獻(xiàn)引用的內(nèi)容部分,主要解決抽取什么特征向量和抽取多少特征項量的問題。期刊論文是人類自然語言的文本表示,屬于非結(jié)構(gòu)化信息。為了便于計算機處理論文信息,需要將論文進(jìn)行預(yù)處理,即將非結(jié)構(gòu)化的論文信息轉(zhuǎn)化為能夠被計算機直接處理的結(jié)構(gòu)化文本信息,通常有分詞和去停用詞兩個步驟。分詞就是將待比較的論文切割成單個的詞,并根據(jù)詞性進(jìn)行標(biāo)注。目前常用的漢語分詞系統(tǒng)有:ICTCLAS分詞系統(tǒng)、HTTPCWS、SCWS———簡易中文分詞系統(tǒng)、PhpanAl-ysis、盤古分詞、MMSEG4J無組件分詞系統(tǒng)以及中國科學(xué)院的NLPIR中文分詞系統(tǒng)。NLPIR中文分詞系統(tǒng)可以基于信息交叉熵自動發(fā)現(xiàn)新特征語言,從較長的文本內(nèi)容中自適應(yīng)測試語料的語言概率分布模型,實現(xiàn)自適應(yīng)分詞,在本文的期刊引文識別方法中分詞效果最好,是本文主要使用的分詞方法[6]。文本預(yù)處理的第二步是去停用詞。所謂停用詞是指出現(xiàn)頻率較高但實際意義不大的詞,包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差,提高計算效率并節(jié)省存儲空間。目前使用的停用詞都是根據(jù)人類經(jīng)驗非自動化生成的,由此匯集而成停用詞表,目前尚沒有普遍應(yīng)用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫”、百度停用詞表“等。3.2特征詞權(quán)重確定特征項的權(quán)重計算是期刊引文識別中極為重要的過程,和文本相似度計算的效率密切相關(guān)。TF-IDF(TermFre-quency-InverseDocumentFrequency)權(quán)重計算方法是向量空間模型中最常使用的權(quán)重計算方法之一。TF-IDF的主要思想是詞語的重要性跟它在文本中出現(xiàn)的次數(shù)成正比,但跟它在語料庫中出現(xiàn)的次數(shù)成反比。3.3相似度計算及引文有效性判定本文使用相似度來表示文本間的相似程度,相似度越大文本間差異就越小,文本越相似。余弦相似度是實踐中非常有效的一個相似度度量方法,其思想是通過計算兩向量間夾角的cos值來度量文本間的相似程度,夾角越小,余弦值越接近于1。
4實驗及結(jié)果
實驗選用某本刊2015年第一期為實驗文本集,獲得論文25篇,參考文獻(xiàn)260篇。出于數(shù)據(jù)獲取的便利考慮,本研究剔除了圖書、報紙、專利及外文類等參考文獻(xiàn),獲得中文論文類參考文獻(xiàn)95篇;作為比對,在每篇論文中隨意劃取一段敘述作為引用內(nèi)容,并增加無關(guān)參考文獻(xiàn)1篇做為虛假引用的參考文獻(xiàn)(為了回避偶然性,取其它學(xué)科論文做為參考文獻(xiàn)),獲得虛假引文25篇。經(jīng)過文本預(yù)處理之后,根據(jù)向量空間模型,分別計算期刊論文與參考文獻(xiàn)和虛假引文的余弦匹配度。
5結(jié)束語
文獻(xiàn)的不當(dāng)引用是一個長期、復(fù)雜且相對隱蔽的現(xiàn)象,既屬于學(xué)術(shù)道德問題,又屬于學(xué)術(shù)規(guī)范問題。對期刊虛假引文的有效識別只是規(guī)范引文不當(dāng)引用的第一步,但無法解決引文引而不注、過度引用、模糊標(biāo)注等問題[9]。廣大學(xué)者、期刊界、管理者應(yīng)共同重視引文不當(dāng)問題的緊迫性和重要性,逐步推出針對不當(dāng)引用行為的監(jiān)督、獎勵機制,鼓勵廣大學(xué)者及編輯人員發(fā)現(xiàn)、修正虛假引用、引而不注、匿引等不合理引用問題,為不端引用行為監(jiān)督工作提供可靠的依據(jù)。