本站小編為你精心準備了漢語文學字頻分布研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
人們很早就發(fā)現(xiàn),文學作品或者文集中的基本組成單元或元素并不是等概率出現(xiàn)的,少數(shù)的字和詞使用非常頻繁,而只出現(xiàn)一次的字和詞非常多。這種特定的統(tǒng)計分布形式具有非常強的普適性,存在于不同地區(qū)不同時期多種語言之中。這種統(tǒng)計研究除了在理論上討論語言的共性外,其結(jié)果也具有實際應(yīng)用價值,例如它可以應(yīng)用于語言信息的計算機化處理,包括文本的壓縮、輸入法的編碼等,以及目前比較流行的文本自動分析和處理,還可以用于語言學習材料的組織和其他方面,如小學課本中常用字詞的選取等。語言的統(tǒng)計研究可以追溯到很久以前,古印度語法學家在研究《吠陀》時,就進行過單詞和音節(jié)數(shù)目的統(tǒng)計。1898年德國學者Kaeding編制了世界上第一部頻率詞典《德語頻率詞典》。1935年和1949年哈佛大學語言學家Zipf先后出版了兩本著作[1-2],提出了著名的Zipf規(guī)律(或齊夫定律)。他在總結(jié)前人統(tǒng)計發(fā)現(xiàn)的基礎(chǔ)上,指出在文集中詞的出現(xiàn)不是等概率的,它們滿足這樣的形式:p(r)=Cr-β,其中P(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。后續(xù)一些研究發(fā)現(xiàn)西班牙語、法語、愛爾蘭語[3]、希臘語[4]、印度語[5]、土耳其語[6]均滿足這種分布特征,甚至現(xiàn)在已經(jīng)滅絕的語言也是如此[7]。隨著計算機技術(shù)的發(fā)展,對語料庫的統(tǒng)計工作變得非常簡單,這方面的研究工作變得更容易進行。但對于漢語來說,這種基本元素的統(tǒng)計非常特殊。漢語具有兩個基本單元,一個是字(character或ideogram),另一個詞(word)。這兩方面的統(tǒng)計研究工作歷史上都有過一些,例如,1975—1976年,北京新華印刷廠等19個單位發(fā)動了1500名中學生對出版物中的2162萬字的材料進行統(tǒng)計,編成《漢字頻率表》;中國“七四八”工程查頻組首次利用計算機對漢字的頻度進行統(tǒng)計,得出《現(xiàn)代漢字綜合使用頻度表》;1990年,Zhao對統(tǒng)計結(jié)果嘗試進行了曲線擬合,發(fā)現(xiàn)字頻分布具有半指數(shù)半冪律特征[8];1999年,關(guān)毅等人以當時Internet網(wǎng)上的中文字頻統(tǒng)計共享資源為對象進行統(tǒng)計,發(fā)現(xiàn)在現(xiàn)代漢語的字、詞、二元對等層次結(jié)構(gòu)上,同樣存在Zipf形式的頻度———頻級關(guān)系[9]。2003年,Ha等人討論了單個漢字和漢字多元對的分布,發(fā)現(xiàn)單個漢字不服從Zipf分布,而多元對的分布近似服從Zipf規(guī)律,這與英文多元對的分析情況是一致的[10]。這些工作都是針對同一個時期的文字材料,缺乏對于字詞使用的動態(tài)分析。2005年,WangDahui等人首次發(fā)現(xiàn)字頻隨著歷史發(fā)展存在變化,他們對中國不同時代的文獻著作分別進行了分析[11],統(tǒng)計了甲骨文、青銅器上的銘刻、《詩經(jīng)》、《爾雅》、《選集》、《亮劍》等文學作品中的漢字使用分布,發(fā)現(xiàn)漢字的使用分布在不同時代具有顯著差異,早期的中國文獻的字的頻數(shù)和排序關(guān)系是滿足Zipf分布的,而晚期(秦朝以后)的文獻并不滿足這個分布,而更多地表現(xiàn)出指數(shù)的特征。DaJun的統(tǒng)計也發(fā)現(xiàn)現(xiàn)代漢語和古代漢語在字頻使用上存在差異[12]。那么,歷史上字頻是一次性突變還是經(jīng)歷了一個變化過程?這是一個有趣的問題。討論歷史上各個時期文字材料(本文選取自唐以來的各個歷史時期漢語文學作品)中字頻分布的精確性質(zhì)及其演變,可以為我們更加深入研究漢語言的演變提供重要依據(jù)。
2語料庫
中國歷史上的很多時期有其代表性的文學樣式,其發(fā)展順序大致為:詩經(jīng)→楚辭→先秦散文→漢賦樂府→魏晉駢文→唐詩→宋詞→元曲→明清小說。其中,唐詩、宋詞、元曲和明清小說是其中的杰出代表,留存也較為齊全。我們從互聯(lián)網(wǎng)(如天涯在線書庫/等)上獲得了如下材料建立語料庫,如表1所示。其中全唐詩共900卷,收錄唐代和五代詩篇48900余首,作者2200多人。全宋詞收集詞人1300多人,詞作19900余篇。明清小說文集我們選擇四大名著(即《三國演義》、《水滸》、《西游記》和《紅樓夢》)。網(wǎng)絡(luò)小說來源于互聯(lián)網(wǎng)所創(chuàng)作的最新小說,我們從Google網(wǎng)絡(luò)小說排行榜(/rebang/)上隨機選取了2009年4月20日上榜的50篇中的10篇文章,如《長生界》、《壞蛋是怎樣煉成的》、《鬼吹燈》,其中一些小說還在連載中而沒有終稿。我們在統(tǒng)計字頻之前去除了文集中的所有標點符號、阿拉伯數(shù)字和英文字母,只保留了漢字字符。
3字頻的簡單統(tǒng)計
經(jīng)過簡單統(tǒng)計發(fā)現(xiàn),不同的字在同一個文集中出現(xiàn)的次數(shù)有很大差異,如全唐詩中“花”出現(xiàn)11356次,“明”出現(xiàn)6818次,“話”出現(xiàn)518次,而“神”只出現(xiàn)了1次。此外,不同語料庫中同樣的字出現(xiàn)的絕對次數(shù)不一樣,如全唐詩中“不”字出現(xiàn)26502次,而全宋詞中出現(xiàn)10177次,在四大名著小說中共出現(xiàn)38983次,它們的相對頻率也不同,如表2所示。表2列出了我們所討論的5個文集中出現(xiàn)最多的20個字及其頻率,其頻率的值越大說明在文集中出現(xiàn)的次數(shù)越多。全唐詩中“日”的頻率為0.00575,意味著在唐詩文集中平均每174個字中會有一個“日”字。我們可以看出不同文集中出現(xiàn)最多的20個字不完全相同,但文集的對應(yīng)時期越近,列表中相同的字數(shù)越多,且順序更一致。對所有5個文集來講,有5個字都在出現(xiàn)頻率最高的前20名內(nèi),它們是“不”、“一”、“來”、“人”和“有”。為定量衡量這個差異,我們使用ShlomoHavlin在1995年提出的計算兩個概率序列距離的公式。Dij=1N∑λriλ-rjλ21/2其中λ表示兩個序列i,j中都有的字,riλ表示在序列i中的位置,N為λ的個數(shù),即兩個序列中包含的相同的字的個數(shù)。結(jié)果如表3所示,說明較近時期的文學作品對漢字的使用具有更大的相似性。元曲和明清小說的差別最小,而唐詩和現(xiàn)代網(wǎng)絡(luò)小說在漢字的使用習慣上差別最大。
4字頻分布的性質(zhì)及擬合
在語言方面的研究工作中,常常將字頻或者詞頻按大小順序從左到右排列起來,橫軸為所在的位置序號,縱軸為這個字/詞出現(xiàn)的頻率。如圖1所示,圖中的曲線自上而下分別為全唐詩、全宋詞、全元曲、明清小說和網(wǎng)絡(luò)小說。采用的坐標為縱軸為對數(shù)坐標,圖形右端類似直線,表現(xiàn)出很強的指數(shù)特征,即字頻的下降速度很快。圖形右上角的子圖為Zipf圖,即為雙對數(shù)坐標。左端具有一定的線性規(guī)律,表示字頻具有一定的冪律特性。唐詩和宋詞冪律部分較為接近,宋詞和元曲在指數(shù)部分比較接近,即唐詩和宋詞在高頻詞的使用頻率上比較接近,而宋詞和元曲在低頻詞的使用頻率上更為相似,網(wǎng)絡(luò)小說的詞頻則呈現(xiàn)出兩個極端。1990年,ZhaoKaihua提出了字頻函數(shù),基于實證統(tǒng)計的結(jié)果,他認為排在第r位置的字頻為P(r)=Ae-arrb,其中A,a,b均為常數(shù),Zhao文中分別為0.0158,0.00166和0.429。從數(shù)學形式上看,這個字頻函數(shù)包括兩個部分,一個為指數(shù)特征部分e-ar一個為冪律特征部分r-b。隨著排序越來越大,字頻越來越小,其下降的速度受指數(shù)衰減和冪律衰減二者的乘積所控制。從數(shù)學分析可知,冪律衰減相對指數(shù)衰減而言,其特性是在左端下降速度快而右端下降速度較慢,所以整個衰減過程左端主要表現(xiàn)為冪律衰減,而右端表現(xiàn)為指數(shù)衰減。所以,這種函數(shù)形式應(yīng)該能較好地表現(xiàn)如圖2所示的漢字字頻。我們用這個函數(shù)對實證數(shù)據(jù)進行擬合。為了減少擬合過程中對高端數(shù)據(jù)偏差帶來的懲罰效應(yīng),我們采用logP(r)=logA-ar-blogr使用Matlab中的nlinfit函數(shù)進行擬合,得到較好的擬合效果,如圖2所示,是我們對全唐詩文集和現(xiàn)代網(wǎng)絡(luò)小說文集中字頻統(tǒng)計的擬合結(jié)果。除了在高頻部分存在一定的偏差外,擬合曲線很好地符合了實證數(shù)據(jù)。擬合過程得到的參數(shù)估計如表4所列。以上參數(shù)中,a描述的是指數(shù)特性,而b描述的是冪律特性。整體看,隨著歷史的發(fā)展,漢語文學作品中字的使用頻率的衰減指數(shù)特性增強,冪律特性減弱。唐詩、宋詞、元曲具有更大的相似性。
5結(jié)論
本文討論了自唐代以來各個歷史時期文學作品中漢字的使用情況。自秦始皇統(tǒng)一中國的文字以來,漢字的書寫方式和種類相對固定。討論漢字使用習慣的演變是一個很有意義的事情,可以幫助我們深入了解漢語言的變遷,并對將來漢字的發(fā)展情況做出預(yù)期。我們的討論結(jié)果表明,漢字的使用在不同歷史時期存在差異,相近的歷史時期漢字的使用習慣更具有一致性,并且冪律特性逐步減弱而指數(shù)特性逐漸增強。這個原因可能是因為在歷史早期,人們往往用一個漢字(即單音節(jié)詞)來表達意思,而隨著歷史的發(fā)展,人們更多采用多音節(jié)詞來表達意思。具體如何造成指數(shù)特性增強而冪律特性減弱還需要進一步討論。