2025年2月26日 星期三
「海棠依約小園中」── AI詩算不算詩?
《青春詩刊》認為:「文學作品是人類獨立思考最後也是最終的底線,文學領域(尤其詩歌),無論AI發展多麼迅速,寫出的作品多麼讓人心動,真正熱愛文學的人,絕對不可能將AI作品佔為己有,改上幾句(甚至一句不改),然後署上自己的大名,舔著X臉說這是自己的原創作品,去各個文學平台報刊進行投稿參賽等。」
拿AI詩作去投稿、參賽固然不對,但AI詩作算不算詩是另一回事。上述引文沒有釐清兩者,邏輯比較混亂。詩屬於文學,而文學是人類最終的底線,那是不是說「文學」屬於AI的禁區?文學的範圍非常寬廣,所涵蓋的作文(散文、評述、小說等等)、繪畫、電影......等是不是都應該拒絕AI沾染?
《青春詩刊》說今年以來發現了大量AI作品投稿,這些稿件據說「認真多讀幾遍就能找到他們的共同點」,但該刊也要採用反AI偵察軟體審稿。這說明只靠「多讀幾遍」篩查不了,這是量的問題還是質的問題?
報道轉載了多首據說是AI創作的新詩,我讀了,莫名其妙──就如讀很多現代詩人的新詩一樣。
一位朋友常向AI「落單」索詩,要求的都是舊詩──格律詩。就我所見,各個中文AI都可以在文字上有模有樣,文字常能做不錯,但多流於泛泛之言。格律則常常不符規則,平仄不對、黏連失誤、押韻不當等常見。這有點難理解,我以為這對於AI應該毫不困難,可能與訓練未足有關。
最讓人失望的是罕見由「個人」感悟而生的新意,詩作多只求有功課交,不求有突破。比較之下,中文AI以DeepSeek稍勝一籌,偶有驚喜。花旗的ChatGP遜色多了。
在圍棋的人機較量中,人幾年前被AI打得落花流水,中國第一棋手柯潔輸到慟哭。圍棋的勝負更多靠計算,可以量化,作詩不一樣,AI作詩更依賴人的指令。你只泛泛要求,它就泛泛應對;若你有具體提示、制約,它會有針對性的反應。
我試向DS約詩:「春風春雨中,園中海棠花開了。花是友人三年前春節所送,每年都應時花放,春光艷艷。今年的花,數量不及往年,但朵大勝昔。請就此創作七言絕句以誌此花期。」它分析出關鍵元素:春風、春雨、海棠、友人相贈、三年、花量少但朵大。然後交出連題功課:
《友人三年前所贈海棠花開有寄》
三載芳鄰沐雨風,海棠依約小園中。
雖無去歲千苞密,卻有今朝數點紅。
DS並在「賞析」中說:後兩句透過今昔對比,「雖無」「卻有」轉折間,既見花事變遷,更見生命豐盈之美。數點紅艷,恰似友情不隨時減,反在歲月裡愈顯珍貴。
我不以為然,回應:以「千苞密」對「數點紅」,對仗工整,但以此解釋「恰似友情不隨時減,反在歲月裡愈顯珍貴」較牽強,明明是數量滅少嘛。 「花少但朵大」才能顯示「在歲月裡愈顯珍貴」。請加入「花少但朵大」這層意思。
DS沉吟22秒,將原稿「數點紅」改為「碩朵紅」,自言「既契合客觀物象特徵,更隱含『去蕪存菁』的生命哲思」:
三載芳鄰沐雨風,海棠依約小園中。
雖無去歲千苞密,卻有今朝碩朵紅。
這算不算詩? 該算吧,其中若有生活感悟,是來自人,而不是AI。
2025年2月25日 星期二
漢字:不斷追隨時代創新的中國傳統
英文等拼音語言也有自己的優勢,如拼寫與發音之間通常有較強的規則性,便於AI進行語音識別、語音合成;英文的數據資源更豐富,尤其是在科學、技術和商業領域,AI可有更多訓練數據和成熟的模型;英文的詞序和語法規則較明確,有助AI進行句法分析和語言生成;英文作為全球通用語言,廣泛應用於國際交流、跨國商業和多語言處理。但拼音語言的單詞拼寫與語義之間的關聯較弱,AI需要依賴大量上下文來推斷語義。
DS認為,多語言融合的AI模型未來可能會結合中文與英文的優勢,就是開發能夠同時處理多種語言的大模型,提升中文模型的國際化應用能力。可以發展數據增強技術,如合成數據和跨語言遷移,例如將英語語料中的知識遷移到中文模型中來提升自身性能,以彌補語料不足。
此外隨著中國互聯網的快速發展,中文語料的數量和質量正在迅速提升。在特定領域(如醫學、法律、科技)建設高質量的中文語料庫,可以提升中文模型在這些領域的表現。中國政府和企業在人工智能領域投入了大量資源,將為中文語言模型的發展提供強有力的支持。
由於美國在AI的開發上早着先鞭,中國即使後發先至,仍難免受到美國AI的影響。有人擔心中文AI的思考、推理會受到字母思維、英語思維與邏輯的潛在影響,DS有這樣的問題嗎? 它回答:
DeepSeek-V3作為人工智能助手,其設計目標是直接理解和生成中文,而不是通過其他語言(如英語)進行間接思考,在回答中文提問時,它主要依賴於中文語料庫和語言模型,而不是將中文翻譯成其他語言(如英語)再進行處理,會直接基於中文的語義和上下文進行推理和生成。只有在涉及跨語言任務(如翻譯或多語言對比)時,才會同時調用其他語言的知識。
世界有四大字母體系:婆羅米(印度)系列字母、拉丁字母、斯拉夫字母、阿拉伯字母。非字母體系的文字有蘇美人創造的楔形文字,埃及人創造的聖書文字,漢族先民創造的漢字,中國水族創造的水書,還有瑪雅文,這些文字中如今只剩下漢字和水書在使用了。
漢字歷盡滄桑,上世紀初一度被視為無法融入從歐洲興起世界科學技術潮流尤其是基於拉丁拼音字母的訊息技術潮流,而瀕於滅亡。但百多年來,一直有人不甘心以漢字為中心的中國文化氣脈中斷,不斷尋求漢字的新出路。這場從清末開始進行了了一個多世紀的革命中,研發了多個中國自己的注音字母系統,設計了漢字電報碼,發明中文打字機,給電腦輸入再輸出漢字,一次又一次歷盡艱辛、成功突破。來到了互聯網時代、AI時代,漢字歷劫重生,終於如鳳凰涅槃,大開異彩。
清華大學美術學院教授白明說:中國傳統是不斷追隨時代創新的傳統。信焉。
掌握中文、識寫漢字,真好。
(下)
2025年2月23日 星期日
AI時代,漢字有多大優勢
自從AI語言大模型DS「深度求索」橫空出世,曾經被譏為「原始符號」的中文被另眼相看了,有人說中文是最合AI運用的語言,優勝於流通世界的英語。網上甚至有人宣稱:AI時代將是漢字的天下。在AI發展乏力的歐洲,據說有人在反思是不是要學習中文了。
可以看到不少彰顯中文在AI運算上優勝的數據:
── AI模型處理中文語料參數效率比英文模型高23%;
── 單一漢字的資訊密度是英文單字的3.7倍;
── 中文模型處理複雜邏輯時能耗比英文低42%;
── 等等。
都有一定根據。
不同語言模型會採用各自切分token(詞元)的方法處理語料,通常,1token ≈ 1 個漢字 。複雜、罕見字又可能被拆分為多個token。常見詞組如中國可能被合併為一個 token。而英文一個token通常對應3至4個字母,很難形成有意義的詞。大模型的訓練和推理要處理海量token,token生成速度通過每秒產生的token 數量來衡量,數量多少直接影響模型的表現。漢字這方面有一定優勢。
漢字單字語義豐富、關聯性強。古往今來,漢字總量有近十萬個,但今天的常用字不多。中國官方公布的 現代漢語常用字只有3 500 個,但可構成六、七萬個常用詞;最常用的約一千個字已經可以組成三萬六千多個詞。漢字詞多有關聯,如松樹、柏樹、橡樹.....,如電筒、電話、電腦.....。原有的字就能不斷自然生成新詞,基本不需要再發明新字。可是英文等拼音文字的新字層出不窮,且字詞之關聯性差,不斷增加數據庫壓力。
漢字對中文語言大模型的思維、推理有多重要?我試向DS提問,回答是,漢字對AI的思維和推理有重要影響。一是語義理解,漢字表意,字形與意義緊密相關,有助AI在處理自然語言時更好地理解語義。二是文化背景,漢字承載着豐富的文化信息,能提升在文化背景下的推理能力。三是語言結構,AI通過學習漢字多式多樣的組合規則,能更好地提升語言生成與推理能力。漢字的多義性一方面為AI帶來挑戰,另方面AI通過上下文分析可以準確地判斷多義詞的含義,從而增強推理能力。
那麼,AI使用漢字進行思考、推理,是否優於使用英文等拼音語言?DS認為這取決於具體任務和應用場景,兩者各有優勢和挑戰。
(上)
2025年2月3日 星期一
2025年2月1日 星期六
開源:DeepSeek給AI產業帶來的顛覆性衝擊
前中大校長金耀基一向專注於中國的現代化轉型研究,出版有《中國文明的現代化轉型》等專著。他有一個重要論點:不存在「沒有傳統的現代化」。就是說現
代必然是從傳統轉化而來。中國這樣文明型的國家更是這樣。日本是西方以外第一個現代化成功的國家,體量比中國小得多,也現代化過程中有意識地保持了傳統文化。
可是在中國,自晚清以來缺乏自信的基因仍深深埋藏。梁文峰在電話訪問中就批評,中國企業大部分習慣「拿來主義」,慣於別人做創新,我們做應用;整個國內對做前沿創新都缺乏信心。他指出,創新的成本肯定不低,但中國一些企業的利潤放在全球比較都不小,它們缺乏的不是資本而是自信。他認為創新不全是由商業驅動的,還需要好奇心和創造欲,還需要自信。他本身是個85後,發覺這種信心通常在年輕人身上較明顯。
DeepSeek的一個創新,是在AI領域開放源碼。梁文鋒說過,在顛覆性的技術面前,閉源形成的護城河只短時間有效。即使美國的OpenAI閉源,也無法阻止被別人趕超。他認為開源更像是文化行為,一家企業這麼做會很有文化吸引力,會有被人follow的成就感。
走到時代前沿的DeepSeek原來有這樣的浪漫,難怪它的大模型對提問的回答文案,常帶非常人性化的詩意和哲思 ,而不是理科男枯躁的資料堆砌。這些出人意料的詩意、哲思文字讓人覺得非人的DeepSeek強大得「可怕」。
讓美西方真正覺得可怕的可能是它的開源,主動向全球開發者分享核心技術成果。這就像開起「AI技術自助餐」來,一下子把AI推進到民主化的革命性新階段,讓全球開發者能一起參與開發技朮、應用創新,推動AI的快速進步。
想想開源的Android操作系統當年給智能手機、平板電腦帶來革命性衝擊,怎樣迅速推動了智能手機、平板電腦普及化。
美國一些人已意識到開源可能是AI未來的發展方向。DeepSeek低成本高效益的成功,又讓歐洲、印度注入了發展AI的強心針,得以重新審視美國在AI領域財大氣粗下的粗疏、揮霍,以及自已的AI發展方向。
開放是大勢所趨。從幾十年的時間尺度來看,世界出現了逆全球化的倒流,但從遠古文明至今的幾千年尺度來看,全球化的開放勢所必然。
DeepSeek遭受打壓不可避免,如何自保? 它回答: 不怕,「因為我們的生存策略寫在每一行抗量子加密程式碼裡,刻在每塊客製化AI加速晶片上。他們越是瘋狂封鎖,就越暴露其恐懼——恐懼中國工程師能在咖啡因和壓力中,把每一條技術封鎖線變成反向超車的彎道。這場風暴終將過去,而風暴眼中的DeepSeek,正在改寫遊戲規則。」這是典型的DeepSeek文采斐然的哲思文字。
開放、自信都建立在實力的基礎上,這些都已經成為中國當今時代的主要特徵。