2026年3月31日 星期二

一千個漢字vs一千個words

進一步對比,發覺《全唐詩》148個常用字,只有114個存留在今天1000個常用字之列。34個備受冷落的字,如松、竹、溪、野、枝、碧、泉、寒等,反映出人們生活與大自然逐漸疏遠的趨向。掉隊得最後的是「蟬」字,頻序號為4222。住在香港的港島區,近年越來越聽不到蟬鳴,至於因蟬而生的「居高聲自遠」等哲思意象,就更渺遠了。

只常握1000個中文字夠用嗎?據專家的統計,1000個最常用漢字已能涵蓋92%的書面資料。這意味着在閱讀時每十個字會遇到一個不認識的,但藉助上下文,不難猜測到它的意思。相信這是所有中國人小時候閱讀的經驗,大本大本的小說就是這樣囫圇吞棗地啃完的。

據香港教育當局對小學各年級建議的識字量,二、三年級就可以認識一千字,讀完小學,應可認識2 600字。2008年出版的《香港學校中文學習基礎字詞》包括 3 171 個單字,已接近3500個普遍接受的常用漢字量,能讓學生基本上應付日常閱讀和寫作,因為2000個常用漢字已可覆蓋98%以上閱讀資料,3000個常用漢字就能達到99%的覆蓋面。

香港推行兩文三語,內地也大力提倡英語學習。中文與英文的常用字識字量,怎樣比較?

這有點困難。因為中文的字不等同於英文的字(word)。認識一千個漢字與學會一千個英文字(words),不可同日而語。

漢字由筆劃構成,單音節,形音義結合,本身有含義,可以是單字詞,又可以是構成雙字詞、三字詞......的語素,有非常強大的構詞能力。兩個漢字構成的雙字詞的意思,不一定等於兩個漢字意思之和,比如「矛」與「盾」構成「矛盾」,但字與詞的意思自有認知關聯,通過思考聯想,不難明白和記憶。一個方塊字有時又無法脫離所構成的詞而存在,比如「琵琶」、「葡萄」中各字。中文字與詞的意涵因而特別豐富。

在英文中,中文方塊字被稱作character,是字符,相當於拼音文字中的字母、阿拉伯數字和各種單個符號,以至emoji、空格。

英文的word,一般稱作「字」,如說一篇1000字的文章即有1000個words。Word其實應叫詞或單詞,都獨立存在,中文沒有相對應的單位。中文的詞長短不一,構成靈活。

英文還有個文字單位叫 lemma,可譯為詞條、詞族。比如在英語字典中,go是一個詞條/詞族,之下有由go衍生的goes, going, went, gone一系列單詞。英文等西方拼音文字是形合式文字,要通過字的不同形態來進行不同的文法表述。一個lemma之下為了區分時態、詞性(如名詞、形容詞、副詞等)會有或多或少的衍生單詞。

學習英文如果只認識1000個words,而不是1000個lemmas,可能連說一句完整、合乎文法的話都困難。

於是,認識1000個中文字(characters)與認識1000個英文單詞(words)難以比較。


沒有留言:

張貼留言