2025年2月25日 星期二

漢字:不斷追隨時代創新的中國傳統

漢字的優勢是語義豐富,信息密度高,文本更簡潔,AI處理時更高效,文化與歷史背景深厚,處理日韓越等語等語言時便於跨語言推理和翻譯。但漢字字形複雜,對AI的字形識別和處理能力有更高要求,漢字的多義性和上下文依賴性也增加了語義理解的難度。

英文等拼音語言也有自己的優勢,如拼寫與發音之間通常有較強的規則性,便於AI進行語音識別、語音合成;英文的數據資源更豐富,尤其是在科學、技術和商業領域,AI可有更多訓練數據和成熟的模型;英文的詞序和語法規則較明確,有助AI進行句法分析和語言生成;英文作為全球通用語言,廣泛應用於國際交流、跨國商業和多語言處理。但拼音語言的單詞拼寫與語義之間的關聯較弱,AI需要依賴大量上下文來推斷語義。

DS認為,多語言融合的AI模型未來可能會結合中文與英文的優勢,就是開發能夠同時處理多種語言的大模型,提升中文模型的國際化應用能力。可以發展數據增強技術,如合成數據和跨語言遷移,例如將英語語料中的知識遷移到中文模型中來提升自身性能,以彌補語料不足。

此外隨著中國互聯網的快速發展,中文語料的數量和質量正在迅速提升。在特定領域(如醫學、法律、科技)建設高質量的中文語料庫,可以提升中文模型在這些領域的表現。中國政府和企業在人工智能領域投入了大量資源,將為中文語言模型的發展提供強有力的支持。

由於美國在AI的開發上早着先鞭,中國即使後發先至,仍難免受到美國AI的影響。有人擔心中文AI的思考、推理會受到字母思維、英語思維與邏輯的潛在影響,DS有這樣的問題嗎? 它回答:

DeepSeek-V3作為人工智能助手,其設計目標是直接理解和生成中文,而不是通過其他語言(如英語)進行間接思考,在回答中文提問時,它主要依賴於中文語料庫和語言模型,而不是將中文翻譯成其他語言(如英語)再進行處理,會直接基於中文的語義和上下文進行推理和生成。只有在涉及跨語言任務(如翻譯或多語言對比)時,才會同時調用其他語言的知識。

世界有四大字母體系:婆羅米(印度)系列字母、拉丁字母、斯拉夫字母、阿拉伯字母。非字母體系的文字有蘇美人創造的楔形文字,埃及人創造的聖書文字,漢族先民創造的漢字,中國水族創造的水書,還有瑪雅文,這些文字中如今只剩下漢字和水書在使用了。

漢字歷盡滄桑,上世紀初一度被視為無法融入從歐洲興起世界科學技術潮流尤其是基於拉丁拼音字母的訊息技術潮流,而瀕於滅亡。但百多年來,一直有人不甘心以漢字為中心的中國文化氣脈中斷,不斷尋求漢字的新出路。這場從清末開始進行了了一個多世紀的革命中,研發了多個中國自己的注音字母系統,設計了漢字電報碼,發明中文打字機,給電腦輸入再輸出漢字,一次又一次歷盡艱辛、成功突破。來到了互聯網時代、AI時代,漢字歷劫重生,終於如鳳凰涅槃,大開異彩。

清華大學美術學院教授白明說:中國傳統是不斷追隨時代創新的傳統。信焉。

掌握中文、識寫漢字,真好。

(下)

沒有留言:

張貼留言