筆下留情: AI 協助破譯甲骨文、楔形文字

2022年9月15日星期四

AI 協助破譯甲骨文、楔形文字

異體字的混亂，到春秋戰國時仍非常嚴重。一九六五年才出土的《侯馬盟書》是春秋晚期晉國的官方文書，同一國的文字也一字多體：「敢」字有九十多種寫法，「嘉」字的寫法竟然超過一百多種。小篆統一文字之前的古文字因此特別難認。

破譯古文字要靠「密鑰」，就是要找到可以參照的文字。五千多年前在兩河文明中產生的楔形文字，到公元前五百年左右，曾經是西亞大部分地區通用的商業交往媒介；之後湮沒，到一四七二年才重新被發現，但已沒有人懂。直到刻有楔形文字、新埃蘭(伊朗的最早文明)文和古波斯文的貝希斯頓銘文(Bagastana) 一八三五年被發現，通過三種文字對照，楔形文字之謎才慢慢解開。

相對於歐洲學者花了幾百年才解讀楔形文字，晚清王懿榮、劉鶴等從發現「龍骨」上的古怪符号起，啄磨幾天就初見成效，開始逐步破解中國神秘古文字之謎。關鍵在於：我們文字的傳承脈絡一直沒有中斷，看似中斷了的地方一旦找到，很快就能血脈復通。

但是，不論是楔形文字還是甲骨文，要全面破譯，還非常非常難。中國文字博物館二零一六年曾經懸賞，破譯一字甲骨文十萬元。兩年後，僅一字得到破譯。了解這兩種冷僻文字的專家極少，能流利閱讀楔形文字的，全世界只約有75人。數以萬計幾千年前留下的泥板和甲骨片，因而都只能堆放在博物館庫房「冷處理」。以前，破譯靠學者們一個字一個字去破，現在有了好助手，就是借助比人類大腦強大的人工智能(AI)系統。楔形文字學者和甲骨文學不約而同在向同一方向努力。

英國《新科學家》周刊八月六日刊登了題為《人工智能如何揭示古代楔形文字秘密》(How the secrets of ancient cuneiform texts are being revealed by AI)的封面報道。破譯楔形文字之難，一是文字很不明確，一個詞的有不同異體；二是大部分泥板並不完整，多破損、破碎，碎片拼湊像複雜的拼圖，還可能散落在世界各地。倫敦不列顛博物館於是在二零一八年起建立一個語料庫，利用人工智能開發出算法，讓人工智能接受音譯訓練，然後推斷某塊泥板可能有什麼缺失，再到數據庫中搜索，找尋適合的「拼圖」。耶路撒冷希伯來大學的學者二零二一年發現，人工智提出符合上下文缺失字詞的建議，準確率達89%。

以AI破譯甲骨文的研究己進行多年，參與的不乏中外響噹噹的名字：清華、華為、谷歌、麻省理工等，有學術機構，有商業機構，還有從美術設計角度楔入的。為了提高人工智能的閱讀理解能力，八億字的《四庫全書》已錄入到系統去。華為雲人工智能技術總監朱聲高說：「在這個過程中，我們用到了華為OCR+NLP+ M,odelArts技術做深度學習，通過相關的算法，把模糊的數據進行分析和比對，能夠清晰的識別。」

天書亦為人所寫，破譯只是時間問題。

(二之二)

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

筆下留情

2022年9月15日星期四

AI 協助破譯甲骨文、楔形文字

沒有留言:

張貼留言

追蹤者

標籤

2022年9月15日 星期四

AI 協助破譯甲骨文、楔形文字

沒有留言:

張貼留言

2022年9月15日星期四