自從AI語言大模型DS「深度求索」橫空出世,曾經被譏為「原始符號」的中文被另眼相看了,有人說中文是最合AI運用的語言,優勝於流通世界的英語。網上甚至有人宣稱:AI時代將是漢字的天下。在AI發展乏力的歐洲,據說有人在反思是不是要學習中文了。
可以看到不少彰顯中文在AI運算上優勝的數據:
── AI模型處理中文語料參數效率比英文模型高23%;
── 單一漢字的資訊密度是英文單字的3.7倍;
── 中文模型處理複雜邏輯時能耗比英文低42%;
── 等等。
都有一定根據。
不同語言模型會採用各自切分token(詞元)的方法處理語料,通常,1token ≈ 1 個漢字 。複雜、罕見字又可能被拆分為多個token。常見詞組如中國可能被合併為一個 token。而英文一個token通常對應3至4個字母,很難形成有意義的詞。大模型的訓練和推理要處理海量token,token生成速度通過每秒產生的token 數量來衡量,數量多少直接影響模型的表現。漢字這方面有一定優勢。
漢字單字語義豐富、關聯性強。古往今來,漢字總量有近十萬個,但今天的常用字不多。中國官方公布的 現代漢語常用字只有3 500 個,但可構成六、七萬個常用詞;最常用的約一千個字已經可以組成三萬六千多個詞。漢字詞多有關聯,如松樹、柏樹、橡樹.....,如電筒、電話、電腦.....。原有的字就能不斷自然生成新詞,基本不需要再發明新字。可是英文等拼音文字的新字層出不窮,且字詞之關聯性差,不斷增加數據庫壓力。
漢字對中文語言大模型的思維、推理有多重要?我試向DS提問,回答是,漢字對AI的思維和推理有重要影響。一是語義理解,漢字表意,字形與意義緊密相關,有助AI在處理自然語言時更好地理解語義。二是文化背景,漢字承載着豐富的文化信息,能提升在文化背景下的推理能力。三是語言結構,AI通過學習漢字多式多樣的組合規則,能更好地提升語言生成與推理能力。漢字的多義性一方面為AI帶來挑戰,另方面AI通過上下文分析可以準確地判斷多義詞的含義,從而增強推理能力。
那麼,AI使用漢字進行思考、推理,是否優於使用英文等拼音語言?DS認為這取決於具體任務和應用場景,兩者各有優勢和挑戰。
(上)
沒有留言:
張貼留言