形聲字發音規則探勘
Pronunciation Rules Discovery for Picto-Phonetic Chinese Characters
Author: 林書彥
Publish Year: 2011-07
Update by: March 25, 2025
摘要
由於中國市場的崛起,全世界有超過四千萬非華語人口正在學習漢語。在台灣,也因為社會變遷的關係,外籍與大陸配偶的人數從2002年的二十三萬人成長至今已有四十四萬人,其中外籍配偶約十四萬六千多人,已取得國籍者約九萬人,這些現象顯示了漢語學習需求及重要性日益顯著。 然而,漢語字形讀音繁複,初學者並不易掌握學習要訣,尤其漢語的發音更是複雜多變。事實上華語作為第二語言的學習,比起英文作為第二語言的學習更是難上許多,因為漢語的字形與音調相較拼音文字複雜,學習者要同時進行形、音、義三者的連結,如果沒有適當的聯想,將需要很大的記憶力。漢字的構成包含象形、指事、會意、形聲、轉注、假借(總稱六書),其中形聲字占的比例最高,至少占八成。形聲字不僅可由形旁表意,又可以聲符表音,因此即使沒見過的字也可以由偏旁推論其音及義,這也是所謂的「有邊讀邊,沒邊念中間」的法則。然而,形聲字發音規則探勘的困難在於聲旁僅代表相近的發音,之間的演變規則尚未有人探究過,例如:泡、抱、飽三個字同樣與『包』的發音相近,然而發音如何由『包』的發音轉變成其他三個字的發音,則仍待研究。 由於形聲字所占的比例極高,而聲符在形聲字中又扮演極為重要的腳色。因此本文第一階段目標是建立形聲字標記系統,藉由人工標記的方式標定14598個形聲字聲符。然而,人工標記曠日費時。為此,我們提出三種自動判定聲符的方法。其中機率分佈比較法準確率達九成八,而後再藉此方法排序出部件發音強度,進而達到重要部件先學習的目的。第二階段為探討重點在於找出常用漢字的各種特徵(如筆畫部首),並利用關聯式探勘法則(Apirori)找出形聲字的發音規則,並以漢字初學者的角度出發,將發音規則過濾整合,留下容易記誦的部份。我們的目標是提出一個以聲符部件教學為主的漢字學習策略,用以提高學習曲線,讓漢字不是教一個字才學到一個字,而能搭配發音關聯規則「一舉數字」,發揮數位學習的優點。