六月丁香五月婷婷,丁香五月婷婷网,欧美激情网站,日本护士xxxx,禁止18岁天天操夜夜操,18岁禁止1000免费,国产福利无码一区色费

學(xué)習(xí)啦 > 論文大全 > 畢業(yè)論文 > 教育類論文 > 教育理論 >

漢字字頻統(tǒng)計(jì)方法的改進(jìn)的策略(2)

時(shí)間: 若木1 分享

三、漢字字頻統(tǒng)計(jì)存在的主要問題
盡管漢字字頻統(tǒng)計(jì)取得了諸多重要的研究成果,但是,由于受漢字自身的復(fù)雜性以及漢字信息處理技術(shù)的局限性等因素的影響,目前的漢字字頻統(tǒng)計(jì)還存在很多問題,影響了字頻統(tǒng)計(jì)的質(zhì)量。其問題主要表現(xiàn)在以下幾個(gè)方面:
1.近些年來多數(shù)漢字字頻統(tǒng)計(jì)依據(jù)的是電子語料庫(kù),這些電子語料庫(kù)建庫(kù)目標(biāo)主要是為語言研究服務(wù)的,加之計(jì)算機(jī)字庫(kù)收字的限制,在把紙質(zhì)文本轉(zhuǎn)換成電子文本的過程中未能保持文字使用的原始狀態(tài),影響到統(tǒng)計(jì)結(jié)果的客觀性。比如,1956年1月28日國(guó)務(wù)院全體會(huì)議第23次會(huì)議通過了《關(guān)于公布〈漢字簡(jiǎn)化方案〉的決議》,1956年1月31日《人民日?qǐng)?bào)》全文發(fā)表了國(guó)務(wù)院的《關(guān)于公布〈漢字簡(jiǎn)化方案〉的決議》和《漢字簡(jiǎn)化方案》,在此之前報(bào)刊圖書主要使用繁體字(偶爾也用簡(jiǎn)體字)。1955年12月文化部和文改會(huì)聯(lián)合發(fā)布了《第一批異體字整理表》(以下簡(jiǎn)稱《一異表》),要求從1956年2月起在全國(guó)實(shí)施,這之前異體字未經(jīng)整理。1977年12月20日《人民日?qǐng)?bào)》、《光明日?qǐng)?bào)》、《解放軍報(bào)》及各省、市、自治區(qū)一級(jí)報(bào)紙發(fā)表中國(guó)文字改革委員會(huì)《第二次漢字簡(jiǎn)化方案(草案)》,12月21日《人民日?qǐng)?bào)》開始試用《第二次漢字簡(jiǎn)化方案(草案)》第一表的簡(jiǎn)化字,1978年7月停止試用這批簡(jiǎn)化字,1977年12月21日至1978年7月之間《人民日?qǐng)?bào)》等曾經(jīng)用過“二簡(jiǎn)”的字。而北京語言學(xué)院語言教學(xué)研究所1986年編的《漢字頻率表》使用了1956年1月31日前的資料,如1951年1月31日的《人民日?qǐng)?bào)》、1955年出版的《田漢劇作選》、1954年至1955年在《獨(dú)幕劇選》上發(fā)表的何求的《新局長(zhǎng)到來之前》、1952年人民文學(xué)出版社出版的茅盾的《子夜》的第五、第十九章、1955年人民文學(xué)出版社出版的老舍的《駱駝祥子》第十六章、1953年人民出版社出版的巴金的《家》第一、第三十八章、1955年人民文學(xué)出版社出版的巴金的《春》第一章等,卻沒有出現(xiàn)繁體字⑨。使用了1956年2月《一異表》實(shí)施前的大量資料,卻沒有出現(xiàn)異體字。以1951年1月31日的《人民日?qǐng)?bào)》為例,該日?qǐng)?bào)原版中有繁體字“對(duì)”、“裝”、“數(shù)”、“會(huì)”等,而《漢字頻率表》有“對(duì)(頻序60、頻次5138)”、“裝(頻序435、頻次841)”、“數(shù)(頻序286、頻次1325)”、“會(huì)(頻序32、頻次7075)”,而沒有“對(duì)”、“裝”、“數(shù)”、“會(huì)”等。該日?qǐng)?bào)紙中有《第一批異體字整理表》中被淘汰的異體“遊(舊字形)”、“鎻”、“週(舊字形)”、“誌”等,而《漢字頻率表》有“游”、“周”、“志”等正體,有“鎻”的正體“鎖”的簡(jiǎn)化字“鎖”,而沒有“遊”、“鎻”、“週”、“誌”等。該日?qǐng)?bào)原版中文字有舊字形,而《漢字頻率表》中的字均為新字形。推測(cè)《漢字頻率表》的研制者在測(cè)查文本時(shí)按當(dāng)時(shí)的規(guī)范修改了原始文本,用規(guī)范字替換了不規(guī)范的字。這種測(cè)查結(jié)果顯然不能準(zhǔn)確反映社會(huì)用字的實(shí)際情況。又,國(guó)家語言資源監(jiān)測(cè)與研究中心編《中國(guó)語言生活狀況報(bào)告(2005)》(下編)的《調(diào)查報(bào)告》中明確指出:“報(bào)紙文本是從網(wǎng)絡(luò)下載的,沒有與紙質(zhì)版本作比較。”又說:“本次統(tǒng)計(jì)不包括以下兩種字符:(1)漢字部件。共有25個(gè),計(jì)529字次,主要出現(xiàn)在報(bào)紙語料或網(wǎng)絡(luò)語料中。包含以下兩類情況中:①講解漢字中用到的偏旁部首,如‘言語的“語”這個(gè)字旁邊是個(gè)“讠”字旁’。這種部件共出現(xiàn)四個(gè):亻、辶、宀、讠。②拼字,大部分出現(xiàn)于人名、地名,如‘講述人劉亻思亻思,14歲,樹德試驗(yàn)中學(xué)’、‘本市寶坻區(qū)林亭口鎮(zhèn)帳房瞿阝村農(nóng)民’、‘廣東中山南(艸朗)(上下結(jié)構(gòu))鎮(zhèn)橫門港碼頭彩旗飛揚(yáng)’、‘20歲的廣西姑娘?。ū镭郑┳蛱旎貜V州了’。(2)亂碼和無法顯示的字符。這些字符共出現(xiàn)765個(gè),計(jì)23221字符次,占整個(gè)語料字符數(shù)的0.0026%。”⑩根據(jù)作者的自述,本次統(tǒng)計(jì)不是依據(jù)原始的紙質(zhì)文本,而是依據(jù)電子文本,并且電子文本并未與紙質(zhì)文本校對(duì),因此,電子文本轉(zhuǎn)錄錯(cuò)誤的未加改正。受轉(zhuǎn)錄者使用的計(jì)算機(jī)編碼字庫(kù)的限制,字庫(kù)中沒有的字,在電子文本中或用拼字表示,或用替代符號(hào),或根本無法顯示,均不能統(tǒng)計(jì)。(舉例中出現(xiàn)的偲、、蓈、剻四個(gè)字在《報(bào)刊、廣播電視、網(wǎng)絡(luò)用字總表》中也都未收錄。)
2.未能嚴(yán)格規(guī)定統(tǒng)計(jì)單位,或規(guī)定的統(tǒng)計(jì)單位不一致,影響到統(tǒng)計(jì)結(jié)果的科學(xué)性,不同的統(tǒng)計(jì)結(jié)果也無法進(jìn)行比較。前面提到的北京語言學(xué)院語言教學(xué)研究所編的《漢字頻度表》、北京航空學(xué)院計(jì)算機(jī)科學(xué)與工程系和國(guó)家語言文字委員會(huì)漢字處研制的《現(xiàn)代漢語字頻統(tǒng)計(jì)表》、李波著《史記字頻研究》以及北京書同文數(shù)字化技術(shù)有限公司編寫的《古籍漢字字頻統(tǒng)計(jì)》均未明確界定統(tǒng)計(jì)單位。只有收錄在《中國(guó)語言生活狀況報(bào)告(2005)》中的《報(bào)紙、廣播電視、網(wǎng)絡(luò)用字總表》的調(diào)查報(bào)告中對(duì)統(tǒng)計(jì)單位有粗略的說明:“字種數(shù):8128個(gè)。這里的字種,指字形不同的漢字。”(11)這里無論是用的“字種”這個(gè)術(shù)語,還是“字形不同的漢字”,這樣對(duì)字種的解釋,表意都不夠明確。首先,使用的字種這個(gè)術(shù)語與學(xué)術(shù)界一般的用法不同。周有光在《現(xiàn)代漢字學(xué)發(fā)凡》一文中曾用具體實(shí)例區(qū)別“字次”、“字種”和“字形”三個(gè)術(shù)語,他指出:“‘從群眾中來到羣衆(zhòng)中去,是一條群眾路線的原理’。這個(gè)句子里有幾個(gè)字?甲答:20個(gè)字。乙答16個(gè)字。丙答:18個(gè)字。為什么答案不同?甲講的是‘總字次’,有一個(gè)算一個(gè)。乙講的是‘字種數(shù)’,同字異形合并計(jì)算。丙講的是‘字形數(shù)’,同字異形分別計(jì)算。”(12)他在《現(xiàn)代漢語用字的定量問題》一文中又指出:“‘定量’是定‘字種’的總量。一個(gè)漢字可以繁簡(jiǎn)不同,形體不同,但是屬于同一‘字種’,以‘正字’為標(biāo)準(zhǔn)。”(13)沙宗元在《文字學(xué)術(shù)語規(guī)范研究》一書中根據(jù)周有光的研究設(shè)立了“字形數(shù)”和“字種”兩個(gè)術(shù)語,并分別給出了定義,他給“字形數(shù)”下的定義是:“根據(jù)漢字字形而不考慮其繁簡(jiǎn)、正異等字際關(guān)系進(jìn)行統(tǒng)計(jì)所得出的漢字?jǐn)?shù)量。”給“字種”下的定義是:“一個(gè)漢字即使有多個(gè)繁簡(jiǎn)體、異體字,也只作為一個(gè)來計(jì)算的漢字統(tǒng)計(jì)單位。”(14)該文中所定義的兩個(gè)術(shù)語也存在不匹配的問題。跟“字種”匹配的術(shù)語是“字形”,跟“字形數(shù)”匹配的術(shù)語應(yīng)是“字種數(shù)”?!秷?bào)紙、廣播電視、網(wǎng)絡(luò)用字總表》中用的字種大致相當(dāng)于周有光所說的字形。在實(shí)際操作中,《報(bào)紙、廣播電視、網(wǎng)絡(luò)用字總表》繁簡(jiǎn)字、異體字、新舊字形都作為不同的統(tǒng)計(jì)單位來統(tǒng)計(jì)的。在該表統(tǒng)計(jì)的8128個(gè)統(tǒng)計(jì)單位中包括繁體字361個(gè),異體字193個(gè),舊印刷字形47個(gè),另有不合現(xiàn)行規(guī)范的類推簡(jiǎn)化字7個(gè)。
前面提到的那些未對(duì)統(tǒng)計(jì)單位作出明確規(guī)定的統(tǒng)計(jì),在實(shí)際操作中所用的統(tǒng)計(jì)單位各不相同。
北京語言學(xué)院語言教學(xué)研究所編《漢字頻度表》的統(tǒng)計(jì)單位大致是按照周有光定義的字種來操作的,統(tǒng)計(jì)的語料中包含繁簡(jiǎn)字、異體字和新舊字形,統(tǒng)計(jì)結(jié)果中有個(gè)別異體字和錯(cuò)誤類推簡(jiǎn)化字,但未見繁體字和舊字形,應(yīng)該是用簡(jiǎn)化字替代了繁體字,用新字形替代了舊字形。統(tǒng)計(jì)出的異體字,包括《一異表》收錄的異體字,如,並(276)、并(1766);黏(1719)、粘(2495);渺(2321)、淼(4336)等;《一異表》未收的異體字,如,沙(649)、砂1756;衖(1901)、巷(2034)等;錯(cuò)誤類推簡(jiǎn)化字,如,4475號(hào)“垅”(2189壟);4174號(hào)飚(當(dāng)是技術(shù)錯(cuò)誤)。
《中國(guó)語言生活狀況報(bào)告(2005)》中的《報(bào)紙、廣播電視、網(wǎng)絡(luò)用字總表》的統(tǒng)計(jì)單位近似于周有光的字形,繁簡(jiǎn)字、異體字、新舊字形均作為不同的統(tǒng)計(jì)單位進(jìn)行統(tǒng)計(jì)。表中收錄繁體字361個(gè)(15),異體字193個(gè)(16),舊字形47個(gè)(17)。
統(tǒng)計(jì)單位的不明確、不統(tǒng)一,不僅影響到字頻統(tǒng)計(jì)的科學(xué)性,也不利于統(tǒng)計(jì)結(jié)果的正確、有效使用。
四、漢字字頻統(tǒng)計(jì)的改進(jìn)
根據(jù)上述情況分析,我們認(rèn)為必須加強(qiáng)字頻統(tǒng)計(jì)的理論研究,完善統(tǒng)計(jì)原則,改進(jìn)統(tǒng)計(jì)方法,提高字頻統(tǒng)計(jì)的客觀性和科學(xué)性。
首先,要實(shí)現(xiàn)字頻統(tǒng)計(jì)的客觀性,必須建設(shè)滿足文字學(xué)研究需要的字料庫(kù)。所謂字料庫(kù)“是指以文字的整理和文字學(xué)的研究為目標(biāo),按照語言學(xué)和文字學(xué)的原則,收集實(shí)際使用中能夠代表特定文字或文字變體的真實(shí)出現(xiàn)過的文字書寫形態(tài),運(yùn)用計(jì)算機(jī)技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫(kù)。字料庫(kù)是在大規(guī)模真實(shí)文本的基礎(chǔ)上生成的真實(shí)的文字書寫形態(tài)的有序集合,是利用計(jì)算機(jī)對(duì)文字形體進(jìn)行各種分類、統(tǒng)計(jì)、檢索、綜合、比較等研究的基礎(chǔ)。”(18)只有根據(jù)字料庫(kù)的原則建設(shè)字料庫(kù),基于字料庫(kù)進(jìn)行漢字的字頻統(tǒng)計(jì),改變以往基于語料庫(kù)進(jìn)行字頻統(tǒng)計(jì)的做法,才能解決以往字頻統(tǒng)計(jì)客觀性不足的問題,實(shí)現(xiàn)字頻統(tǒng)計(jì)的客觀性,使得字頻統(tǒng)計(jì)能夠最大限度地反映社會(huì)用字的實(shí)際狀況。
其次,漢字字頻統(tǒng)計(jì)必須明確界定統(tǒng)計(jì)單位,劃分不同層級(jí)的漢字統(tǒng)計(jì)單位,根據(jù)不同需要對(duì)漢字的不同層級(jí)的統(tǒng)計(jì)單位進(jìn)行分類分層的字頻統(tǒng)計(jì)。
漢字統(tǒng)計(jì)單位的界定與劃分是一個(gè)非常復(fù)雜的問題,必須專門研究,不是本文能夠全面解決的問題。本文僅以印刷楷書為例,以字頻統(tǒng)計(jì)為目標(biāo),示范性地討論字的概念界定與劃分方法。
學(xué)術(shù)界不少學(xué)者曾經(jīng)從文字學(xué)的角度對(duì)漢字中字的單位做過區(qū)分,但是,著眼點(diǎn)又有所不同,有的是著眼于漢字規(guī)范對(duì)字的單位進(jìn)行界定,有的是著眼于對(duì)漢字使用實(shí)際狀況的調(diào)查對(duì)字的單位進(jìn)行界定。前者,如前文所述周有光在《現(xiàn)代漢字學(xué)發(fā)凡》一文中曾區(qū)別“字種”和“字形”。后者,如北京師范大學(xué)漢字構(gòu)形學(xué)系列研究,從文本提取字形進(jìn)行歸納,實(shí)際上也涉及漢字單位。王貴元的《馬王堆帛書漢字構(gòu)形系統(tǒng)研究》是最早從文本中提取字進(jìn)行構(gòu)形分析的專著。該書第二章“單字整理”,專門討論從文本中提取字制作字表和進(jìn)行統(tǒng)計(jì)的單位問題。文中先討論了異寫字、異構(gòu)字、同形字三個(gè)概念,并在此基礎(chǔ)上討論了字樣認(rèn)同與別異、通行體與變體、單字統(tǒng)計(jì)原則等問題(19)。李運(yùn)富在《楚國(guó)簡(jiǎn)帛文字構(gòu)形系統(tǒng)研究》一書中,也在第二章設(shè)立了“單字整理”一章,并進(jìn)一步把單字整理程序化,專門討論了字樣的提取與辨認(rèn)問題,在此基礎(chǔ)上討論了字樣群的處理,設(shè)立了字位與符位等概念,把字的單位區(qū)別為同體字樣與異寫字樣、同符位異構(gòu)字、異符位同形字等,已經(jīng)有了字單位的層級(jí)性的思想(20)。到陳淑梅的《東漢碑隸構(gòu)形系統(tǒng)研究》和齊元濤的《隋唐五代碑志楷書構(gòu)形系統(tǒng)研究》,字樣提取及不同層次單位的歸納程序基本成熟。王寧先生在為《漢字構(gòu)形史叢書》寫的總序中對(duì)此作了理論總結(jié),她說:“對(duì)文本中的漢字加以整理,也就是必須對(duì)寫在文本上實(shí)際使用的漢字進(jìn)行三種性質(zhì)不同的歸納:(1)字樣的歸納。這是將重復(fù)出現(xiàn)的漢字字樣歸納到一起并進(jìn)行統(tǒng)計(jì)的工作,是將一切文本形式的漢字改變?yōu)樽謳?kù)形式第一步要做的工作。(2)字組的歸納,也就是對(duì)結(jié)構(gòu)、功能相同書寫略有變化的異寫字的歸納。這些字屬于同字異寫,或稱同構(gòu)異寫的關(guān)系。(3)字種的歸納,也就是對(duì)功能相同結(jié)構(gòu)不同的異構(gòu)字的歸納。這些字或因構(gòu)件的選擇不同,或因構(gòu)件的增減不同而異形,因而有著不同的構(gòu)意,但記詞的功能是相同的。它們的關(guān)系屬于同職異字,或稱同詞異字。”(21)王寧先生所說的“三種性質(zhì)不同的歸納”如果都把它定義為字的話,也就是三個(gè)不同層次的“字單位”。
從規(guī)定的角度可以采納周有光先生的界定,把字的單位劃分為字種、字形兩級(jí)。
字的單位確定了,字頻統(tǒng)計(jì)則可以根據(jù)不同的統(tǒng)計(jì)目的規(guī)定統(tǒng)計(jì)單位,可以以字型為統(tǒng)計(jì)單位統(tǒng)計(jì)型頻,也可以以字樣為單位統(tǒng)計(jì)樣頻,可以以字式為單位統(tǒng)計(jì)式頻,可以以字種為單位統(tǒng)計(jì)種頻。這樣,不僅統(tǒng)計(jì)單位明確、清晰,而且每次特定的統(tǒng)計(jì),統(tǒng)計(jì)單位統(tǒng)一、等質(zhì),便于統(tǒng)計(jì)數(shù)據(jù)的使用,以及不同統(tǒng)計(jì)數(shù)據(jù)的比較,使得字頻統(tǒng)計(jì)的科學(xué)性得到保障。
注釋:
①馮志偉:《現(xiàn)代漢字和計(jì)算機(jī)》,北京:北京大學(xué)出版社,1989年版,第109頁。
②蘇培成:《現(xiàn)代漢字學(xué)綱要》(增訂本),北京:北京大學(xué)出版社,2001年版,第32頁。
③沙宗元:《文字學(xué)術(shù)語規(guī)范研究》,合肥:安徽大學(xué)出版社,2008年版,第402頁。
④國(guó)家語言資源監(jiān)測(cè)與研究中心:《中國(guó)語言生活狀況報(bào)告(2005)》,北京:商務(wù)印書館,2006年版,第6頁。
⑤北京書同文數(shù)字化技術(shù)有限公司:《古籍漢字字頻統(tǒng)計(jì)》,北京:商務(wù)印書館,2008年版,第14-15頁。
⑥周有光:《中國(guó)語文縱橫談》,北京:清華大學(xué)出版社,1997年版,第64頁。
⑦王鳳陽:《漢字頻率與漢字簡(jiǎn)化》,載《語文現(xiàn)代化叢刊》,北京:知識(shí)出版社,1980年第3輯,第92頁。
⑧國(guó)家語言文字工作委員會(huì)、國(guó)家教育委員會(huì):《關(guān)于發(fā)布〈現(xiàn)代漢語常用字表〉的聯(lián)合通知》,1988年版。
⑨北京語言學(xué)院語言教學(xué)研究所:《現(xiàn)代漢語頻率詞典·編輯說明》,北京:北京語言學(xué)院出版社,1986年版。
⑩國(guó)家語言資源監(jiān)測(cè)與研究中心:《中國(guó)語言生活狀況報(bào)告(2005)》,第6頁。
(11)國(guó)家語言資源監(jiān)測(cè)與研究中心:《中國(guó)語言生活狀況報(bào)告(2005)》,第6頁。
(12)周有光:《周有光語言學(xué)論文集》,北京:商務(wù)印書館,2004年版,第316頁。原載于《語文現(xiàn)代化》叢刊第2輯,1980版。
(13)周有光:《周有光語言學(xué)論文集》,第339頁。原載于《辭書研究》,1984年第4期。
(14)沙宗元:《文字學(xué)術(shù)語規(guī)范研究》,第401頁。
(15)(16)(17)國(guó)家語言資源監(jiān)測(cè)與研究中心:《中國(guó)語言生活狀況報(bào)告(2005)》,第257-261、262-264、266頁。
(18)李國(guó)英、周曉文:《字料庫(kù)建設(shè)的必要性與可行性》,《北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》,2009年第5期。
(19)王貴元:《馬王堆帛書漢字構(gòu)形系統(tǒng)研究》,南寧:廣西教育出版社,1999年版,第15-24頁。
(20)李運(yùn)富:《楚國(guó)簡(jiǎn)帛文字構(gòu)形系統(tǒng)研究》,長(zhǎng)沙:岳麓書社,1997年版,第22-43頁。
(21)王寧:《漢字構(gòu)形史叢書·總序》,上海:上海教育出版社,2003年版。
31358