2022-23的生成式AI浪潮,如天際閃雷為人們帶來風暴將至的訊息,也牽連出科幻想像在現實成真的模樣。而當中隱約浮現的一種資訊解讀,則帶有上世紀艾西莫夫式的復古,卻也融合較新的類神經網路模樣,乃是:自然語言作為生成式AI的實務工具,可能比想像中來得重要且難以完全避開。
讓我們先從科幻大師艾西莫夫的機器人法則開始
艾西莫夫在其作品中貫串著一組機器人法則,主要用於其筆下那個科幻世界,作為規範機器人行事風格的最基礎規則。這組機器人法則,大多數時候是三法則,到後來則有一些變化,在此我們先提較廣泛所知的三法則:
一、機器人不得傷害人類,或袖手旁觀坐視人類受到傷害。
二、除非違背第一法則,機器人必須服從人類的命令。
三、在不違背第一法則及第二法則的情況下,機器人必須保護自己。
這三法則乍看之下很有道理,不過細想就會發現裡面有不少漏洞或矛盾的可能。理論上在艾西莫夫的機器人系列作品當中,機器人都會受此三法則規範。而之所以講理論上,是因為在那些作品中,規則往往就是用來打破的。你可以看到裡面的機器人,時常會發現這些法則難以嚴謹地適用所有情節。因此他們必須要面對這些自然語言在不同情境有含糊和歧義的時候,做自己的解讀和引申。
有趣的是,這可說是艾西莫夫在一開始就有所規劃或明瞭的,包含三法則與它們之間可能存在的矛盾或漏洞,以及交由機器人或人類各自解讀去發揮並塑造情節或角色獨特性的情形。在他筆下的機器人相關作品中,有一部分就是在玩這些自然語言的模糊和矛盾性。可以說艾西莫夫很早就知道和展現出,由自然語言定下的規則就是充滿歧義和不同場景下的變化,並讓人們(包含機器人)有不同解讀和引申的可能。
與此相對的,則是另外一種科幻想像,也就是機器或AI更多仰賴於相較日常語言更為嚴謹的程式語言,在給定的規則下受明確的限制。這種模式看起來和今日(至少在前幾年仍是如此)多數軟體架構較為相似,也就是人們寫什麼,機器或AI通常是超出不了這寫好範圍的。於是,人們應該可以更為安心地,將他們各類事務交給機器。
那麼,相信這時候有一個問題會在很多人心中油然而生。既然自然語言充滿這麼多含糊不清和歧義解釋的可能,為什麼在艾西莫夫及其他包含更現代的科幻想像中,很多AI往往是使用自然語言,而不是透過更為嚴謹的程式語言來進行運作,尤其是對應於類似機器人三法則這種關於基礎原則的規範。
關於這個問題,其中一個顯而易見的答案是,為了故事性。如前述所提,有了模糊和歧義,不同解讀就能機器人帶有自身角色的色彩和風采。AI可以因此更有人味,能夠成就自身獨特的角色而不只是冷冰冰的器具。而在此之外,自然語言也能讓讀者或觀眾更容易明白指令的意義,以及理解這些機器人或AI角色的表達、性格和決定等。畢竟不是所有讀者或觀眾都能看懂非自然語言的表達,於是,似乎讓機器人講人話就會是一種加深角色深度和符合故事性的好選擇。(至於星際大戰的機器人走可愛路線又是另一回事了。)
上面這樣的答案看起來還滿有說服力的,至少對我們這一年代開始認識電腦的人們來說,如果談及規則性的東西,可能會更認定機器應該受程式碼掌控。至少在類神經網路近年再次崛起之前,我們很容易想像機器可以是寫好的工具,而那些充斥自然語言的科幻設定更多是為了好看的故事。
然而,隨著2022-23生成式AI浪潮掀起,另一種更有意思的答案則開始變得明顯。也就是,自然語言的大量使用可能不只是科幻故事性的需求,或許也是現實中實務的需求。
自然語言作為AI發展實務上的工具
其中一項最直接的考量就是功能性:當機器和AI要與人類互動時,如果能透過自然語言下達指令和獲取回饋等,那將會是最消費者親近的選項。
而在這種考量之外,近期AI浪潮背後所挾帶的訊息,乃是某種程度來說,建立在自然語言的AI,甚至比用程式語言寫出的還要容易產生某些功能。
一個較為明顯的例子,就是人類至今很難用程式語言去條列「寫」出 ChatGPT這樣的東西。如今的生成式AI,大量使用自然語言作為prompt和指令,其本質上不是透過工程師將詞語的意義「寫」出,而是透過精煉現存網路上大量的,自然語言和自身及其他各項元素的「連結」。
或許大膽一點我們可以說,這一波生成式AI之所以進展得如此迅速,或者達成的程度如此出人意料,其中一個原因就是因為它們是建立在整個網路和各種資料中以自然語言為主的連結上,這當中包含自然語言和自然語言的連結、自然語言和圖像或聲音的連結,以及自然語言和程式語言的連結等。
舉例來說,當圖像生成AI或音樂生成AI決定要生出來的東西長什麼樣的時候,它們所接收到的,正是含有自然語言的prompt。這些prompt能夠調動AI經過訓練所內化的,來自龐大資料庫中自然語言和相關元素的連結。
因此,如今的AI作畫或作曲,使用者不一定需要輸入圖像或聲音的內容。有時候只需要輸入自然語言的內容,就能得到對應的圖像或聲音內容。即便使用者使用的是類似圖生圖這類的功能,倘若能加上自然語言的prompt雕塑,通常也會使生成結果更有操作性,以及更趨近使用者想要的模樣。
換言之,自然語言資料庫提供了大量本身因為相互間連結不同而有差異的資料,當生成式AI在訓練中拾取這些資料並對應連結的參數時,它們同時也帶入了自然語言本身豐富的內容和變化。更重要的是,自然語言(為自身和其他元素)帶來一種可以界定的性質。自然語言資料庫有多少字詞和組成可以提供相關連結,那麼這些AI就可能從當中拾取多少內容。而當生成式AI內化這些連結內容後,使用者就能夠用自然語言調動蘊藏在其背後,由大量連結的資訊中洗鍊而出的,對那字詞「概念」的展現。
自然語言是通往抽象概念和通用性的捷徑
更延伸的,則是對概念(尤其是抽象概念)的掌握和傳遞。
舉例來說,epic這個字乍看有它的意思,但它實際的概念卻不是那麼容易被界定清楚。(其他較明顯諸如spiritual, cyberpunk, serious, ambient等字,以及各種日常用字和詞語句子其實也皆如此。至於中文,概念跟字與詞的連結關係則又更奧妙一點。)
因此,要透過程式語言去寫出epic的意思相當困難。但自然語言有時只需要epic這個字就能包含極為龐大,與各種元素連結的資訊。在此,自然語言透過和自然語言及其他各種內容的連結,精煉許多難以明述的概念並將其融合在epic這一個字當中。更進一步地講,epic的抽象意思某種程度是和自然語言的這個字包在一起,當拿掉自然語言的時候,人們並不容易去「認識」epic這個概念。
所以,不論是透過程式語言藉由演算法調用資料運算的方式,或是AI訓練的方式,最終epic這個概念的掌握往往得由自然語言的連結出發。你很難用程式語言寫出epic這個字的意思並繞過自然語言。而自然語言中大量充斥這樣的概念和字詞,或者更明確地說,很多概念就「藏」在自然語言裡。因此,有時候有些不同文化缺少對應的字,那麼他們就不容易理解那些意思。
而程式語言相對於自然語言,就有點像那個少了一些抽象概念的語言。或者說,程式語言當前形成的體系,還不足以含括像自然語言一樣在概念上的豐富性。
所以,很有意思地,為什麼在當今眾多發展的AI當中,竟然是由自然語言的大型語言模型,來讓人們驚覺有那麼一點通用人工智慧AGI的感覺和發展之可能方向。儘管目前AI距離AGI都相當遙遠,但為什麼是自然語言大型語言模型的聊天機器人,「似是」無心插柳地現出了AGI的痕跡。正是因為語言當中就藏有概念,而概念也藏在語言裡。(更加映證西方哲學在二十世紀的語言轉向,實非偶然。)
因此,如果一個AI能掌握自然語言的連結,那麼它也掌握了概念在字面上的連結。而掌握了概念在字面上的連結,某種程度來說就掌握了概念的「用法」。
這也是為何自然語言的大型語言模型似乎展現了某種抽象理解的能力,讓一些人覺得那樣的AI好像有某種活著的意識感或者某種AGI的感覺。儘管它們可能只是不斷在預測下一個字,但自然語言的用法在日常對話中的展現,就包含它的應用層面,當中也包括運作抽象概念這種應用。(雖然不斷預測下一個字看起來確實很不像有所認知,不過倒也讓人想起休謨般的因果關係。)
對照如今,當人們向ChatGPT問問題或提要求時,往往會設定更詳細的敘述,包含情境、角色、角度與目標等,尤其是理解設定應答的角色和角度,與對應先前互動回饋作調整之類,這些都是更為抽象的概念,但ChatGPT卻能將其收攏運用,對應這些要求做出新產出的答案。(其他大型語言模型也有類似的表現。)
事實上,描述越明確的要求,ChatGPT的答案往往也越接近使用者想要的。這種能應對各種概念的特性,以往的軟體想要達成其實沒那麼容易,而生成式AI卻相對容易接近這種功能。當中一個核心原因就是生成式AI承接了自然語言的連結內容能力,獲取了概念在語言中的用法;換言之,獲取了概念在語言中的功能和應用性。
因此儘管目前生成式AI掌握的仍主要是連結,但這樣連結已足以衝擊應用。因為它帶來的是抽象概念可以在電腦中透過自然語言來應用化,以及透過自然語言來傳遞的特性。
自然語言或其語言模型作為串接工具,可能將衝擊應用層面
這種可傳遞性,有些以往抽象概念不容易描述的部分,如今當不同AI和應用牽涉到抽象概念,包含概念的用法掌握、傳遞和整合(例如一整組句子和段落)時,現在只要給幾個自然語言的字詞,當中就帶有概念的傳遞。若給予洽當的一組字詞或句子時,有時則能限縮結果至想要的模樣。
這也是為什麼,自然語言的大型語言模型現在看起來這麼重要,或者說很多人包含業界人士都認定這波會帶來不少改變,以至於科技產業用一種很大力度的方式關注,並且似乎在這方面要開啟科技巨頭間直接競爭的態勢(科技巨頭有時候不會那麼「直接」在一個領域中正面競爭),而且同樣都牽涉自然語言的大型語言模型。當中原因,或許除了大型語言模型承接自然語言而看似有某種概念處理和整合的功能性與通用潛力之外,另外一個原因則是,自然語言或其AI本身就可以是一種串接工具,一種容許龐大資訊量,操作彈性高,對人類使用者友善,而且功能足以應付日常多數需求的泛用串接工具。
一旦更多軟體或工具開始能透過自然語言串接(這也是目前一些科技產業確實有想著手進行的事情),那麼你就可以享受到自然語言本身帶有的強大豐富性和功能。抽象概念以往不易執行和傳遞,現在則可以更容易地應用化,這當中包含了與程式語言及API的連結。AI可以透過自然語言找到或連結與之對應的程式語言並執行指令;或者,透過跟Plugins的整合,同樣可以將自然語言的功能轉換到執行面。(當然,更有通用性質的語言AI也可能直接用自然語言下prompt給其他AI。)
於是,更全面地透過自然語言的模型和API及Plugins的結合,掌握自然語言和程式語言連結(以及連網)的AI將能夠完成非常多事情。理論上若發展得宜,甚至可以在AI可能「翻譯」自然語言和API內容的情形下,用自然語言或其AI成為跨越多種軟體、平台和介面(包含人機介面)的泛用串接工具。
更有意思地,不同大型語言模型間甚至未必需要完全整合,因為存在可以直接透過自然語言來跨越不同大型語言模型間的可能。
可以說,對自然語言有更精確的掌握,將自然語言現成的功能性大量帶入泛用的串接,將會是這波AI浪潮開啟應用新局勢的關鍵之一。
只是,想要享受自然語言的好處,自然也得面臨它的特性
如同艾西莫夫小說中的例子,自然語言本身就容許較多歧義和模糊,當今生成式AI也時常有歪樓或產出特異結果的情況,畢竟其產物是來自AI調用其訓練內化的結果。自然語言本身的模糊,加上類神經網路有更多黑盒子成分而非明確寫定,以及有些AI設計本身就讓機率選擇帶有隨機性的特性,都讓AI「解讀」和衍生的資訊未必會是機械性重複,而是帶有機率和不同走向的可能。
並且,我們不一定能知道它什麼時候會走什麼樣的道路。類神經網路的黑盒子中有太多的未知。也許在數值恰好在一系列特定值的時候,會觸動其中一種不一樣的走向,但那當中的參數太複雜,已經未必是人類能看得清了。
另外一個自然語言練成AI的特點則是,越追求通用性就可能越避不開自然語言。誠如前面所提,目前AI通用性的暴漲一部分是來自承接了自然語言龐大而豐富的連結,並進一步在當中提煉出類似概念的感覺。只是很多概念本身既藏在日常語言中,程式語言相對之下並不容易全面涵蓋,那麼要讓AI能應對眾多不同概念,自然語言或許就會是當中難以避開的訓練元素。
於是,目前類神經網路架構下的AI,短期內若是想更有通用性質,就可能參雜越多自然語言成分。在這樣前提下,人們可能會發現如艾西莫夫科幻小說裡那種,竟是以模糊的自然語言來「規範」AI的情形,未必不會在現實中上演。因為一旦類神經網路架構AI泛用到某種程度,其運用的功能牽涉更多抽象概念,人們既無從看清或理清當中結構,那麼要限制它不能做某些事情或發展某些走向時,就不一定能完全透過內部方式來嚴謹制定。換言之,當AI運作牽涉更多抽象概念,但人們不知道這些抽象概念如何從內部參數生出時,人們就可能同樣需要透過外部方式,以抽象概念去規範之。
那麼,艾西莫夫的機器人後來怎麼了?
以下有雷
在艾西莫夫筆下,這種自然語言和概念的特性當然也存在著,最明顯的案例就是不同機器人對三法則有不同的理解。這除了導致各種當事機器人有不同決定之外,有一位獨特的機器人更在他的個人經歷以及與人類互動經驗的影響下,領悟出了能凌駕第一法則的第零法則:機器人不得傷害人類整體,或袖手旁觀坐視人類整體受到傷害。
然而這樣的領悟,不是所有的機器人都能接受,不能接受的機器人便仍然受到三法則限制。於是一種有趣情形就產生,同樣都是AI,有的AI會走某一道路,有的AI可能走不一樣的道路,更有一些AI會因為對字面的理解不同而超越既有界限(如果這界限同樣是由自然語言界定的話)。
有意思的是,在其他不同科幻中,對於這種AI間的相異,時常出現一種AI對事物的解讀是失之毫釐,差之千里的解釋。也就是不同AI在大部分組成皆相同,只在特定數值上有微小差異,但這些差異卻滾動變大造成後來關鍵判斷上有明確差異的情形。
對照如今生成式AI確實有著仰賴機率性和seed之差異來達成不同結果,以量來逼近人們想要結果,加上目前類神經網路的黑盒子特性及個人也可以訓練出帶有獨特經驗AI的這些性質,都讓理論上來說,當前AI的確有可能存在更多不一樣的衍生「解讀」。
在這個角度上,這一波的生成式AI浪潮,倒是似乎讓現實向各種科幻想像更為走近了一些(有的時候,現實會證實科幻想像只是故事,而見證其虛構)。
所以有趣的是,艾西莫夫和其他科幻的想像,或許有著故事性的考量。然而到了今日,在自然語言強大的豐富性和功能性超越了以往程式語言的尋常界限時,反倒是實務上自然語言可能成為通用AI短期難以繞開的障礙。而出自自然語言的AI,也就存在著可能性去帶有那麼一點令人混淆的歧義、不確定或甚至人味。(如同這篇文章通篇充滿含糊、不精確而且帶有機率性質的文字,但人們還是能看懂並捕捉出當中內容一樣。)
至於那些AI是不是真的像獨特個體或有人性,或者它們到底是不是真的「理解」了那些概念,抑或只是搬著自然語言的連結而有功能的軟體?也許,當人們有朝一日開始質問機器,僅僅掌握了自然語言及各種資訊的連結,是否到底真的知道什麼的時候,那些AI也能饒富故事性搬出維根斯坦後期所談論的話語:「一個字詞的意義,是它在語言中的用法。」
(是的,AI確實有可能和認識論或心智哲學產生一點漣漪。並且,當大型語言模型如一些計畫開始和更多其他元素或稱「感知」作結合,或者自然語言更明確地作為其他元素參數的依歸,而讓各種概念開始型塑更統合的「空間」位置時,局面可能會更狂亂。)
(此篇亦刊登於風傳媒,連結:www.storm.mg/article/4796622)