兩年前,當chatGPT剛面市時,我和很多人一樣,都想試試它的功能如何。也和很多人一樣,發現它特別能胡扯。雖然會幫忙寫文章,但對我來說並無大用,也就擱下了。近日因為大陸國產的大模型Deepseek火爆,所以又開始嘗試AI,一玩之下不得了,原來AI進步如此神速,功能之多之強大,深受震撼;一時浮想聯翩,頓覺暈眩,大有胡林翼江上見小火輪之感。
有關AI可能對人類造成的衝擊,改日再談。本文先談一下語言大模型仍然存在的「胡扯」問題。
在此之前,我們先要了解,AI大模型的主要贏利並不在終端用戶(一般人),而在於各種AI應用的開發者。他們透過所謂的API接口購買大模型的使用權,然後加以自家的訓練或種種額外的處理,形成自己獨特的產品。此中產品亦有一些是專門用於某項學術研究者。在此類的AI應用中,對你所提出學術問題而以「胡說」回應的機率就很低了。但如果個人用戶仍然使用語言大模型(如chatGPT,Deepseek,Gemini,豆包……)來問問題,則仍然可能遇到「胡說」。以下就是我遇到的一個例子。

因為看到英文on the horse(準備好,重新出發),想到中文「馬上」一詞是如何具有「立刻」的意思?(會和這個外語有關嗎?)在典籍中,「馬上」都是馬背上的意思(如「欲飲琵琶馬上催」),那在何時開始人們將「馬上」一詞當作「立刻」來使用呢?於是,我將這個問題向AI請教。結果,四個AI的回答長短詳略各有不同,但都有「以假亂真」的地方。
比如,他們都舉了明清小說中的例子,說︰「《水滸傳》:「宋江聽得這話,心中大喜,便叫李逵馬上收拾行李,一同前往。」《紅樓夢》:「寶玉聽了,忙道:‘我馬上來。’」其實這兩例都是假的,水滸傳與紅樓夢中,根本就沒有這兩句話。「豆包」的回答也有點扯,它舉了好長一個小說段落作為例子,例子是真的出自小說,但其中根本沒有「馬上」二字。也就是說,前三者自己瞎編例子,而最後者則前言不對後語。而他們的回答,在舉例之前都有一大串的說明,對「馬上」一詞的來龍去脈說得頭頭是道,如果你不復核,就很容易上當。
不過,Deepseek中有「聯網搜索」這個按鈕,如果你按下這個選項,那麼他的答案就會附上網路的資料來源,於是你可很快地進入相關來源網頁去覆核資料的正確性。(按下「聯網搜索」,得到的結果與不按此鈕會有所不同。)這對資料的正確性是一重保障。而「豆包」也有「學術搜索」選項,一樣會註明資料來源,相對就可靠一點。chatGPT也可選擇聯網搜尋,但它聯的網是一群網站,沒有針對性,看不出資料來源,而它給出的答案仍然有胡編亂造的內容。有朋友說,他的使用經驗,與中文相關的東西,還是中國的產品正確性較高。反之,外文的東西,chatGPT就更強大一些。chatGPT其實還有「探索GPT」按鈕選項,提供了很多基於GPT而開發的次級AI應用,其中不乏學術性的AI工具,只不過都是以服務英文用戶為主。
現在,我們回到問題本身。雖然AI幫我找到很多討論「馬上」的網頁,但這些網頁的內容大多陳陳相因,甚至不乏對文言文的誤讀,所以並沒有解決我的問題。好在現在明清小說幾乎全都上網了,可以自己手動查詢。我用「中國哲學書電子化計畫」這個網站,它與「維基文庫」相連結,可以搜尋到大多數的明清小說,然後又有內容檢索的查尋,所以用關鍵字檢索相當方便。雖然仍免不了要一本一本的查,但總算不是太困難。
我查詢的結果,可以確定在三言二拍及四大奇書加上儒林外史與金瓶梅,都沒有「馬上」作「立刻」的用例。查到有此用例的,是光緒二十九年(1903)開始在報上連載的小說《官場現形記》與光緒三十一年(1905)出版的《二十年目睹之怪現狀》。奇怪的是,與他們同時而更有名的《老殘遊記》中,也無此用例。稍早的小說,比如光緒五年出版的《三俠五義》中,出現了21個「馬上」,皆為「馬背上」之意,無一作「立刻」解。咸豐年間出版的《兒女英雄傳》,無此用例也就不奇怪了。
於是,下一步,是否該詳查光緒六年至光緒末之二十餘年間寫就之小說或其他文獻?或另有更好的研究方法?就有待方家指教了。
最後談一點感想︰AI的出現,必然使知識的流傳、文字的轉化運用都更為方便,知識性的生產力將大為提高。而知識即力量,今所謂「話語權」即其一例也。慶幸今日中國已日趨強盛,足與西方並肩,是以中文資料亦能搭上AI熱潮而隨之流佈;否則AI發展由美國一家獨大,則中文資料必然屈居人下,其取捨全操之於人,則中華人文之發展必然大受扼制也。
今日台灣在中文資料的匯集整理與AI語言大模型上有何進展?我不能知;如能與大陸的相關研究互通有無,協力共進,創造更強大、更豐富的語言大模型,則其浥注於學術者幾何?試想,如能藉大公司API而訓練出儒學研究專用之人工智能,則對儒學研究與推廣,其功勞何可估量哉?終日齗齗於民主自由,畫地自限,如癡人說夢,自絕兩岸之交通,其愚昧,真不可以道里計也!