本站小編為你精心準備了套索方法在期刊評價指標選擇的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1套索模型
Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非負絞除法(NNG)的基礎上,對NNG不足之處做了改進。非負絞除法的預測誤差相對較小并且由于非負絞除法去除了模型中很多接近0但非0的特征,從而增強了模型的解釋性。在高維數據分析中,非負絞除法由于對高維特征進行了壓縮,模型簡化了計算過程并且增強了重要特征的解釋性。但是非負絞除法的缺點是其運算結果要依賴于最小二乘估計的符號和數值大小。并且存在過擬合和多重共線性情況時,由于最小二乘估計效果不好而會影響預測準確性。
2實證研究
2.1實驗指標選擇與研究對象
本次實驗平臺為R-3.2.4,R語言是一種免費的開源語言,并提供了大量可以調用的接口函數,對于一般的統計實驗均可用R實現。同時,為了確保實驗結果的可靠性,將利用同樣的數據信息通過Python環境進行了一次實驗。Python語言同樣擁有非常豐富的數據分析、處理的工具,可以輕松完成本文提到方法的實現。實驗數據來源于中國知網CNKI2015年的年度統計報告。
對于Lasso方法中的調和參數λ的確定是非常重要的,一般采用交叉驗證的的辦法求得λ的最優值,即當交叉驗證取最小值時λ為最優值λmin。為了取得模型的最優精度,需要選擇合適的λ,使得模型的預測誤差降低到最小值。本文使用AIC/BIC準則確定模型大小,一般當AIC/BIC越小時表示該模型越精確。AIC準則其實是BIC準則的一個特殊形式,具體解釋見文獻[12]。實驗采用5折交叉驗證[13]的方法,即首先將數據隨機分為5份,然后依次將其中一份用于計算誤差,剩余4份用于擬合模型,這樣可以得到5個預測誤差,最后取這5個誤差的平均值。為AIC/BIC信息準則用于模型選擇的變化圖,為Lasso的系數解路徑,可以看出當約束λ最大時所有特征被選入模型,隨著約束的減少,特征逐漸減少。本文利用AIC準則確定模型最優解,根據Lasso回歸參數估計結果,發現在第9步時,AIC達到最小值并最終選擇了12個特征,可以看出指標x2,x4,x5,x6,x8,x12,x17,x19,x21,x22,x23,x24的系數為0,其他均不為0。因此,選取了可被引文文獻量、基金論文比、引用期刊數、他引總引比、互引指數、web即年下載率、量效指數、影響力指數CI值、復合總被引、復合影響因子、復合5年影響因子、綜合總被引共計12個指標作為最終的評價指標體系。對系數表進一步觀察可以看出,對前三位重要指標排序依次是復合5年影響因子、復合總被引、量效指數。這與實際聯系是一致的,比如在研究人員論文投稿時一般會關注其5年影響因子,如果比較高可以認為是比較優秀的期刊。通過對原始數據的5年影響因子倒序排序得到了在41種圖書情報領域中有較大影響力的三大比較優秀的期刊,他們分別是:《大學圖書館學報》、《中國圖書館學報》、《情報學報》。這進一步應證了本文應用方法的合理性。
3結論與討論
針對指標數量增多所帶來的諸多問題,本文從在以往期刊評價方法研究的不足出發,利用套索方法減少期刊評價因子,提取關鍵指標,通過科學的計算過程避免了專家打分的個人主觀性,另一方面套索方法可以降低期刊評價中的多重共線問題,以提高期刊的評價效率。套索方法在期刊評價中指標因子選擇方面具降低多重共線性等優點,利用套索方法的連續性和穩定性,使對不重要的指標懲罰更加合理。通過研究,套索方法可以達到指標選擇的作用,為有關人員提供另一種參考標準。比如本文使用的24個指標中篩選了12個指標,這樣讀者和研究人員可以僅根據可被引文文獻量、基金論文比、引用期刊數、他引總引比、互引指數、web即年下載率、量效指數、影響力指數CI值、復合總被引、復合影響因子、復合5年影響因子、綜合總被引這12個指標來選擇合適的期刊閱讀、發表、購買等。對于跨學科研究來說,應該對多學科期刊進行綜合考量。針對后續的研究,同樣可以利用本文的方法,一方面可以檢驗新的指標因子的合理性,另一方面為構建新的指標提供理論依據。
作者:江永眾a;陶虹琳a;杜彥璞a,b 單位:成都理工大學a.管理科學學院;b.四川省數學地質重點實驗室