2024年6月27日 星期四

你若只懂這 148 個字

馮遠:唐詩畫意-王維《送元二使安西》
(渭城朝雨浥輕塵)

在大眾印象中,唐詩以氣魄雄奇、胸襟壯闊見稱。可是大數據卻顯示,細分唐詩的情緒,詩人壓倒性多數愛憑詩訴說心中悲情,各種情緒比例是:悲(77.43%)、思( 17.22%)、憂(3.46%)、喜(o.86%)、懼(0.52%)、怒(0.45%)、樂(0.06%)。如「念天地之悠悠,獨愴然而涕下」(陳子昂),「君不見高堂明鏡悲白髮,朝如青絲暮成雪」(李白),「萬里悲秋常作客,百年多病獨登台」(杜甫),悲是悲,但都是心繫天地生民的大慈大悲,而不是兒女之情的小情小悲。

對一般讀者來說,最值得關切、最實用的可能是《全唐詩》的148個最常用字。這148個字,即使小學生都懂,依出現頻次排序如下:

人山風日天 雲春花年月

水知心君歸 清行我白秋

江空雨明夜 老寒家門客

青聲道玉酒 落金南飛地

流深盡書遠 煙路西身草

頭詩城光雪 香回游閑色

思林馬塵石 公樹獨意黃

世海氣衣愁 別陽難情鄉

望分舊紅夢 龍歌須芳安

醉華竹仙歲 樓葉北笑晚

松好幽文少 霜邊物神吾

溪野孤問陰 鳥枝離留樂

露驚國輕逢 暮語眼綠吟

殘柳漢波碧 泉木久影宮

尋舟居河病 翠蟬苦

漢字常因數量太多為人詬病。漢字的數量並沒有準確統計。宋朝官修的《集韻》收字53 525個,曾經是收字最多的一部書;後來《康熙字典》等多部字典都收近五萬字。當中其實有大量一字多體的異體字,和不再使用的死字。日常用字少得多。根據統計,1 000個常用字已能涵蓋約92%的書面資料,2 000字可覆蓋98%以上,3 000字更達99%。在大陸,現代漢語常用字表中有 2 500 個字;通用規範漢字表 (主要關乎印刷字體)常用字集有 3 500 字。台灣的常用國字標準字體表有 4 808 字。二零零八年出版的《香港學校中文學習基礎字詞》則包括 3 171 個單字。

《全唐詩》148個最常用字也涵蓋了唐詩中最常見的意象,由客觀物象與心中情意結合所生。這148個單字詞排列組合而成的雙字詞豐富多采。每首唐詩都不乏這些字、詞、意象。

以崔顥的《黃鶴樓》為例:「昔人已乘黃鶴去,此地空餘黃鶴樓。黃鶴一去不復返,白雲千載空悠悠。」28字中有10個見於148個常用字。王之渙的《涼州詞》:「黃河遠上白雲間,一片孤城萬仞山。羌笛何須怨楊柳,春風不度玉門關。」28個字中更有15個見於148個常用字,超過一半。

這148個字中,關乎自然物象的很多。最常用的頭十個字── 人、山、風、日、天、雲、春、花、年、月──中,除了「人」這主體,和「年」這抽象的時間概念,大自然的山、風、日、天、雲、春、花、月似乎都與詩人不離不棄,「天人合一」就這麼具體。這十個字,現代人也常用,但「常」的意義與唐朝詩人大不一樣。

這148個字讓人更貼近唐詩。只學懂這148個字,一首唐詩的字你可能已認識一半。寫好這148個字,一首唐詩可能有一半字能一揮而就。

(二之二)

2024年6月26日 星期三

從大數據看唐朝詩歌

李白的大江南北行跡地圖
所有民族都有詩歌,都會用各自的語言唱詠各自的悲歡,個人的,群體的。以數量計,中華民族的詩歌一定名列前芧,甚至名列首位。原因很簡單,中國人口數量一向世界第一,中華文明又是唯一數千年不斷的文明。更難得的是,二千多年前用漢字紀錄下來的詩歌,至今可閱可誦,流傳不絕;即使語言讀音變化多端,各地方言又未必相通,但用漢字紀錄的詩文是共同的文化遺產、感情紐帶。哪怕《詩經》裡的詩歌文詞古澀,稍加解釋,一樣可以瑯瑯上口。不久前動畫片《長安三萬里》上映,一些地方的兒童觀眾在電影院內爭相與銀幕上的李白、高適同聲朗讀。讀書不幾年的兒童都能與一千三百多年前的詩人心意相通、同聲唱詠的場面,是世界奇觀。

中國古代詩歌,廣義而言,包括各種韻文。狹義而言則僅包括古體詩和近體詩,即按照傳統格律創作的詩,一般稱作舊詩。漢代時樂府詩形成,配上音樂唱詠。三國時期以建安文學為代表的詩作吸收了樂府詩的營養,為後來格律更嚴謹的近體詩奠定了基礎,催生了唐代的絕句和律詩。空前嚴謹限制,反而讓唐詩成為傲視古今詩壇的高峰。

康熙下令編纂的《全唐詩》,是收錄唐詩最全面的典籍,全書九百餘卷,收錄2 200多人的作品48 900餘首。什麼概念? ── 東漢到隋末近六百年,流傳下來的詩歌有五千餘首,只約為唐詩的一成多一點。

對於唐詩這個文化寶庫,近年有學者利用電腦進行大數據分析,一些成果在網上可以看到。例如中南民族大學文學與新聞傳播學院教授王兆鵬及其研究團隊與搜韻網合作製成的《唐宋文學編年地圖》已上線,展現了對唐宋詩詞及詩人的量化分析。其中有151位唐宋詩人一生的行跡路線圖,點擊詩人行跡圖中一個地點,可以看到詩人在當地創作的詩作。譬如點出李白,可以見到他從碎葉城(托克馬克)到大江南北縱橫的行跡,覆蓋地域之廣袤令人咋舌,真不知道在那交通落後的年代,他一生62年怎能走過那麼多地方。往白帝城一點,能讀到他「流放夜郎,至夔州遇赦,喜出望外,立返江陵」而寫的「輕舟已過萬重山」名篇。這些地圖把唐詩宋詞的時空打通了。王兆鵬還與深圳大學文學院教授劉尊明出版了《唐宋詞的定量分析》(北京大學出版社)。

這些大數據研究,讓人對中國古詩詞會有新的認識。例如根據歷代唐詩選本、點評、研究論文的數據,列出的唐詩「排名榜」就與很多人的認知不一樣。排列榜首的是崔顥的《黃鶴樓》(昔人已乘黃鶴去)。正是崔顥這題詩讓李白遊黃鶴樓時自愧不如而未敢樓上留詩。其次是王之渙的《涼州詞》(黃河遠上白雲間)、杜甫的《登高》(風急天高猿啼哀)、王之渙的《登鸛雀樓》(白日依山盡)和張繼的《楓橋夜泊》(月落烏啼霜滿天)等。

(二之一)

2024年6月21日 星期五

維港夏至:金烏西北賒地落


今天是夏至,香港酷熱,天文台總部錄得34.0攝氏度,是為最熱的夏至,平了一九八零年創下的紀錄,上水更達到36.4度。如果香港一年的酷熱到此為止就好了,可是夏至的「至」不是指溫度,而是指太陽向北移動到夏至之日直射北回歸線就到頭了,之後就向南回歸,於是今天是北半球全年白晝最長的一天。今天早上,太陽5:40就出來了;剛才到7:10才落下,白晝長達13小時30分。氣溫嘛,七八月才是至高的時候。

今天天氣不錯,就是地面的風不大,有煙霞,霧霾像薄被把遠山蓋起來,屯門的青山不見蹤影。夏至時,從我家望去,太陽應當正好落在西北方的青山尖尖的頂上。傍晚回到家,架起手機,用縮時攝影紀錄下維港夏至的日落景色,只看到太陽如金丸沉沒在煙霞中。

下午與朋友研習書法,寫到《全唐書》148個最常用字的第36到40個:落、金、南、飛、地。上周試過把之前的五個字湊成兩個對句來習寫,今天繼續嘗試,把五個字嵌入兩個七字句中:

金烏西北賒地落

孔雀東南比翼飛


「金烏」是在中國古代神話裏的三足烏。傳說太陽中央有一隻三足烏鴉,渾身四周周金光閃爍,故稱「金烏」。這是不是太陽黑子引起的幻覺? 三星堆出土的「太陽神鳥」說不定也與之有關連。「賒」用作動詞,解賒欠;用作形容詞則,解遙遠。

在上句中,「地」字的位置,該平聲,而「地」為陽去聲,欠佳,有點遺憾。

朋友向AI「文心一言」出題得到的句子是:

金秋落葉隨風舞

南雁飛雲逐地遊

下句顯然不理想。改作「北雁南飛匝地還」較好。

這樣應題命句,而句子要律句,限制很大,很不自由,有點自討苦吃,但也有樂趣。創作從來不是自由的,如台灣雲門舞集創辦人林懷民說,創作其實是在弄明白限制條件之後做到最好。這就是所謂「帶着鐐銬跳舞」。《全唐書》148個最常用字的習字看來可以這樣繼續做下去,既練字,又練句。

2024年6月11日 星期二

端午節的維港夜空


端午節整天吹南風,空氣特別清新,維港上空能見度很高。晚飯後,已是日落後的藍色時光(blue hour),忽然想到可以用縮時攝影拍攝航機從赤鱲魚起飛飛越維港上空的影象。

趕忙架起腳架,拍攝了八分鐘多一點。後來一數,其間有八班機從大嶼山那邊起飛經頭頂往東飛過,在夜空中由下向上劃出一條條光線,如流星飛過,但與流星由上墜落的方向相向,似是「反向流星」。人們見流星會許願,對此「反向流星」則不必,以防因反向而事如願違。

疫情與黑暴之前,當香港經濟環境正常時,赤鱲角機場十分繁忙,航班升降頻密,每分鐘都有飛機起飛。從這縮時攝影看來,赤鱲角機場大概恢復到幾年前的巔峰狀況了。不過市民的感受不一樣,因為仍未分享到「紅利」。

縮時攝影之後,維港緊接着上演無人機表演,一千架無人機在灣仔海傍起飛,在海面上演特別為端午節編排的編隊表演。無人機編隊表演,在內地城市已多見,成為常見的公益或商業演出,在香港則還少見。演出以一架機出場費多少錢計價,目前大約每架一千元。一千架,約要一百萬元,與煙火表演差不了多少,但環保得多。

飛龍在天慶端陽

與煙花、煙花表演不同的另一點是,無人機表演有特別圖案編排,圖案效果因視角不同而迥異。這或者可以隨着編排技術提升而有所改進。煙火、煙花表演則「到處楊梅一樣花」。

說到端午節,可能有人又提出可以不可以說「端午節快樂」的話題了。我認為不必過於執着於關於屈原的傳說了。有朋友日前再從天文學角度說明了天文與端午的關係。端午又稱端陽,即是太陽升至最高端的意思。端午節接近廿四節氣中的夏至,就是太陽北移到北回歸線後再南返的日子。夏至通常在陽曆六月廿一日前後。今年,再過十天就是夏至了。端午節在陽曆中最遲的日子可到陽曆六月廿六日。端陽節前後,該是北半球陽氣最益的日子。

快夏至了,除了天氣會更熱,還可以看到更晶瑩美麗的維港夜色。這兩點,我在家裡都會特別感受到,特別是那非一般的酷熱。

2024年6月7日 星期五

AI作詩與《全唐詩》148常用字

「老樹寒鴉噪  家門客語稀」
用「老、寒、家、門、客」五個字可以寫出一首詩嗎? 這是朋友向內地AI平台「文心一言」的提問。這五個字來自《全唐詩》148個最常用字,在最常用序列上排行第26至30,五個字之間沒有內在關聯。

清康熙年間編校的《全唐詩》涉詩人凡二千二百餘人,詩作四萬八千九百餘首,有三百餘萬字。其中出現最頻繁的頭十個字是:人、山、風、日、天、雲、春、花、年、月。十個字代表着唐朝詩人寫景寫情中最常見的十個意象。你隨便吟誦一首唐詩,最短的只有20個字的五言絕句,大概律有其中至少一個字。

書法是線條藝術,又同文學交集,愛以詩詞為書寫內容。於是我與一些朋友依次序習寫這148個字,每次都選一些相關的詩句來習寫。今天寫到「老、寒、家、門、客」五個字時,朋友忽發奇想:能不能在一首詩裡把這五個字都寫一遍? 於是請「文心一言」幫忙。

AI秒答「可以試著結合這些字和詩的常見主題、意象來建構一個簡短的詩句或片語」,答案是:「老樹寒鴉啼,家門客已稀。」並解釋:上句描繪一幅寂靜而蕭瑟的畫面;下句表示時間流轉,世事變遷,門庭冷落,反映主人內心的孤獨和感慨。

朋友回應:上句末字「啼」為平聲,不好,而且與烏鴉的叫聲不配,建議改為「叫」。AI同意,並說「叫」字比「啼」字更直接地傳達了烏鴉的叫聲,予人更直接、尖銳的聽覺感受,與「老樹」和「寒鴉」共同構成了一幅冷清而寂靜的畫面。

「誰家玉笛暗飛聲,散入春風滿洛城。
此夜曲中聞折柳,何人不起故園情。」

我認為還可以進一步修改:「叫」改為「噪」。「噪」比「叫」更切合烏鴉叫聲之聒耳。「客已稀」改為「客語稀」。「已」為虛字,與上句實字的「鴉」對不上,「客語」對「寒鴉」較好。如此一來,「老樹寒鴉噪,家門客語稀」就平仄、對仗都合乎律句要求了。原來的「寒鴉啼」三字都屬平聲,且位於句末,犯上格律詩「三平調」的大忌。上句也確不應以平聲結尾。

過去也注意到,AI似乎不諳舊詩格律,「亂嚟」,這是又一例證。「文心一言」應當是以普通話作詩的,而普通話只有新四聲,一聲二聲為平,三聲四聲為仄,很易分辨,AI怎麼學不了? AI的自學能力很強,這不是大問題吧? 

再說《全唐詩》148個最常用字。這些字在舊詩中出現的頻律很高。把這百來個字寫好,寫任何詩句都會有駕輕就熟之利,值得為之花點工夫。

今天在書法習寫中又寫了李白的《春夜洛城聞笛》,一查對,28字中有10個──超過三分之一 ──位列148個常用字中,為:風、春、夜、家、聲、玉、飛、城、鄉、柳。

*

後記:一位朋友建議下句改為「家門客影稀」,改得非常好。這使上下句的畫面一動一靜,又有聽覺效果與視覺效果的對比。