2022年9月15日 星期四

AI 協助破譯甲骨文、楔形文字

異體字的混亂,到春秋戰國時仍非常嚴重。一九六五年才出土的《侯馬盟書》是春秋晚期晉國的官方文書,同一國的文字也一字多體:「敢」字有九十多種寫法,「嘉」字的寫法竟然超過一百多種。小篆統一文字之前的古文字因此特別難認。

破譯古文字要靠「密鑰」,就是要找到可以參照的文字。五千多年前在兩河文明中產生的楔形文字,到公元前五百年左右,曾經是西亞大部分地區通用的商業交往媒介;之後湮沒,到一四七二年才重新被發現,但已沒有人懂。直到刻有楔形文字、新埃蘭(伊朗的最早文明)文和古波斯文的貝希斯頓銘文(Bagastana) 一八三五年被發現 ,通過三種文字對照,楔形文字之謎才慢慢解開。

相對於歐洲學者花了幾百年才解讀楔形文字,晚清王懿榮、劉鶴等從發現「龍骨」上的古怪符号起,啄磨幾天就初見成效,開始逐步破解中國神秘古文字之謎。關鍵在於:我們文字的傳承脈絡一直沒有中斷,看似中斷了的地方一旦找到,很快就能血脈復通。

但是,不論是楔形文字還是甲骨文,要全面破譯,還非常非常難。中國文字博物館二零一六年曾經懸賞,破譯一字甲骨文十萬元。兩年後,僅一字得到破譯。了解這兩種冷僻文字的專家極少,能流利閱讀楔形文字的,全世界只約有75人。數以萬計幾千年前留下的泥板和甲骨片,因而都只能堆放在博物館庫房「冷處理」。以前,破譯靠學者們一個字一個字去破,現在有了好助手,就是借助比人類大腦強大的人工智能(AI)系統。楔形文字學者和甲骨文學不約而同在向同一方向努力。

英國《新科學家》周刊八月六日刊登了題為《人工智能如何揭示古代楔形文字秘密》(How the secrets of ancient cuneiform texts are being revealed by AI)的封面報道。破譯楔形文字之難,一是文字很不明確,一個詞的有不同異體;二是大部分泥板並不完整,多破損、破碎,碎片拼湊像複雜的拼圖,還可能散落在世界各地。倫敦不列顛博物館於是在二零一八年起建立一個語料庫,利用人工智能開發出算法,讓人工智能接受音譯訓練,然後推斷某塊泥板可能有什麼缺失,再到數據庫中搜索,找尋適合的「拼圖」。耶路撒冷希伯來大學的學者二零二一年發現,人工智提出符合上下文缺失字詞的建議,準確率達89%。

以AI破譯甲骨文的研究己進行多年,參與的不乏中外響噹噹的名字: 清華、華為、谷歌、麻省理工等,有學術機構,有商業機構,還有從美術設計角度楔入的。為了提高人工智能的閱讀理解能力,八億字的《四庫全書》已錄入到系統去。華為雲人工智能技術總監朱聲高說:「在這個過程中,我們用到了華為OCR+NLP+ M,odelArts技術做深度學習,通過相關的算法,把模糊的數據進行分析和比對,能夠清晰的識別。」

天書亦為人所寫,破譯只是時間問題。

(二之二)


沒有留言:

張貼留言