談談大語言模型與非線性交互敘事


3樓貓 發佈時間:2023-11-20 13:32:43 作者:低多邊形厭氧菌 Language


近些年來,我在機核寫了不少於交互敘事相關的文章,尤其是Espen Aarseth的
Cybertext的讀書筆記;同時作為一個AI從業者,我也寫了不少關於故事生成的文章,尤其是最近的有關基於大語言模型的故事生成的文章。
大語言模型的誕生為交互式文本敘事作品的創作帶來了全新的可能性,這些可能是發表於1996年的Cybertext這本書沒有趕上時代來探討的,但這兩者卻是非常相關的主題。我自己也常常思考,如何從Cybertext的視角去看待基於大語言模型的交互式文本創作,而大語言模型又給傳統的Cybertext作品帶來了怎樣的衝擊。
下面的文字稿來自於我參加服務器藝術一期節目所做的一個分享,包含了我對這個問題的一個非常初步的思考。也歡迎大家在這裡觀看這期節目的錄播。

非線性敘事

這個分享主要會圍繞“敘事的藝術”展開。
我想先提到一個概念:非線性敘事(Nonlinear Narrative)。
大家都知道最近大火的這部電影《奧本海默》。如果你看過的話,應該會對其中對非線性敘事的運用印象非常深刻。因為《奧本海默》上映不久,為了避免劇透,這裡就不深入討論。
這部電影最近的大火引起了關於這個導演——克里斯托弗 諾蘭的相當多的話題。大家發現,諾蘭導演的比較有名的代表作,比如《盜夢空間》、《星際穿越》,都把非線性敘事運用得風聲水起。
他在2000年時有一部電影叫做《記憶碎片》。這部電影講的是一個兇殺案謎團,其中主角患上了一種很奇怪的短期失憶症,每隔10分鐘記憶就會重置一次,也就是說他最多只記得最近10分鐘的事情。電影也把完整的故事分成了大量的小的情節片段,這些片段組成了正敘和倒敘的兩個時間序列。然後諾蘭導演再把組成這兩個序列的情節片段順序打亂、互相穿插起來。
故事中這個影片的主角非常艱難地將自己非常有限的記憶、配合自己以前寫給自己的零星的筆記,拼命想要拼湊出一個完整的現實,去還原兇殺案背後的真相。同時觀眾也很努力地想把影片中這些很混亂的情節按照時間順序重組成自己能夠理解的完整故事。
這個重組的過程非常的燒腦。而不同的人也可能重組出不同的故事,就造成對諾蘭電影的多解性。
《記憶碎片》可以說非常巧妙地通過非線性敘事將主角的主觀感受傳達給了觀眾,達到了形式和內容的統一。
諾蘭導演在電影界,可以說是把非線性敘事玩到了極致了。
但是,他仍然跳脫不出電影這種媒介本身還是線性的這個媒介本身帶來的限制。各位讀者哪怕有一點視頻編輯的經驗,就應該見過這個時間軸:
這個時間軸表示的是觀眾觀看到影片中內容的順序。
不管諾蘭導演的故事如何跳脫出線性時間的框架、他的故事可以形成非常複雜的很立體的結構、可以有多線情節、情節之間可以有嵌套關係、可以有時空錯位。但是為了最後能以一部影片的形式呈現給觀眾,他還是需要將影片素材分佈在這樣一條線性的時間軸上。而這個過程,必然帶來信息損失。
當然這不一定是壞事,信息損失可以帶來多解性。而且畢竟每種藝術媒介本質上都是給創作者帶來限制,正是這種限制帶給創作者表達的機會。比如,為什麼要選擇這種線性化的方式、而不是那種線性化的方式?這裡就可以有很多創作者的巧思在裡面。
但是我們也不妨去思考,如果我們跳脫出媒體本身的線性,是不是能夠為非線性敘事帶來全新的可能性?

非線性媒介

這就來到了我們的第二個話題:非線性的藝術媒介。
在剛剛的電影《記憶碎片》這個例子的分析當中,儘管諾蘭導演把兩條敘事序列拆成了很多情節碎片,把它們順序打亂了,以此來營造一種很困惑的感覺,但他最後還是要把這些碎片按某種線性的順序排在他的影片時間軸上。
因此諾蘭導演不僅僅設計了“通過打亂情節順序來使觀眾困惑”這件事,他還得去設計“具體怎麼打亂、怎麼使觀眾困惑"這件事。他甚至還要設計看到什麼地方觀眾應該開始感到困惑、看到什麼地方觀眾應該要產生什麼誤解、看到什麼地方觀眾對情節的理解應該被反轉、看到什麼地方觀眾應該恍然大悟了。
他本質上不僅設計了這個非線性的敘事結構本身,他還設計了一套完整的觀眾視角,也就是觀眾在看這個故事的過程中應該有一個什麼樣的心路歷程。
那有沒有可能,創作者只去設計這個非線性的敘事結構本身,而不去設計觀眾視角呢?這樣的話,就能讓每個觀眾自己去發現他的獨一無二的觀眾視角。
假設《記憶碎片》是這樣的一部作品,那我覺得它應該會很像2015年發行的一部電子遊戲:《Her Story》。
《Her story》這部遊戲也是講了一個兇殺案的故事,遊戲最一開始是一個英國女人的丈夫被發現死在家裡。整部遊戲就是一個模擬警察局電腦的系統,這臺電腦上有大概271個這個英國女人的審訊視頻、也就是死者的妻子的審訊視頻。玩家可以通過屏幕上看到的這個關鍵詞搜索的系統來探索這271個審訊視頻。在這個過程中慢慢對這個案子的真相建立自己的理解。
作者就把這麼一堆視頻片段,還有這一套看視頻找視頻的系統丟在玩家面前,然後就全部就給玩家自己去探索這個案子了,沒有任何思路引導或者關於這個探索過程的中間情節。
實際玩這個遊戲的體驗可以說跟看《記憶碎片》這部電影的體驗是有些相似的,觀眾都是面對一堆碎片化的情節片段。這些情節片段沒有按照時間順序安排好,所以觀眾會在觀看過程中感到困惑。觀眾不能像傳統的線性敘事的電影或者小說那樣以一種比較消極的姿態被動地接收輸入。他們需要非常積極主動地去思考,去建構自己關於這個故事到底在講什麼的理解。
而與《記憶碎片》不同的地方在於,《Her Story》沒有選擇像電影這樣的線性媒介,而是選擇了電子遊戲這個具有交互性的媒體。這就讓作者在設計完這整套非線性敘事的結構——也就是這271個審訊視頻之後,不用再去設計某種特定的觀眾接觸到這些內容的視角。他不需要像在《記憶碎片》中那樣,還得設計一種打亂情節片段的特定順序。因為每個觀眾觀看這271個視頻都會是不同的順序,他們就會形成自己獨一無二的視角和體驗。
(關於《Her Story》這個遊戲的討論也可以參看我過去的一篇評論文章: 從《Her Story》到《Return of the Obra Dinn》:讓偵探遊戲真正成為遊戲)
我們前面說過,去設計情節出現的順序也可以是作者藉以表達的手法。《Her Story》這裡不能再使用這種表達手法。但是觀眾獲得了更強的沉浸感。而且這種破解一個故事謎團的體驗,比起去看一部別人編排好的破案電影來,就更接近一手的破案體驗。
而且這裡創作者其實也獲得了全新的表達手法,就是觀眾在這套非線性敘事結構中探索的機制。《Her Story》設計了一個關鍵字搜索的機制,而且它限制了搜索結果最多隻能顯示5個視頻片段。如果你用一個太常見的關鍵詞,一些核心情節就更有可能被不那麼關鍵的情節淹沒掉。這其實還是一定程度上在控制觀眾以一種逐漸深入核心、抽絲剝繭的方式探索故事。

Cybertext的概念

這裡我們要引出一個概念:叫做Cybertext(制動文本;遊馭文本)。
電子遊戲本質上是計算機程序。而計算機程序本質上是一種信息系統。一堆信息之所以能夠自成一套系統,就在於除了信息和信息背後的作者之外,還有信息的讀者也在信息的最終表達中起到作用。
而所謂的非線性敘事,本質上也是允許敘事有更加立體的結構。而一個結構一旦立體,就意味著可以用多種視角去考察它。因此信息系統作為一種表達媒介,從一開始就與非線性敘事結構是高度一致的。
說到信息系統、或者說計算機程序,大家一般都會想到電腦軟件或者電子遊戲,但實際上它也是可以被看作是一種敘事媒介的。
挪威學者 Espen J· Aarseth 在1997年發表的一部有一定知名度的著作叫做《Cybertext》,就提出了這樣一種看待信息系統的視角。這本書的全名叫做《Cybertext: Perspective on Ergodic Literature(制動文本:遍歷文學觀)》。
他首先提出了Cybertext這個概念,意指一種自成信息系統的文本敘事結構。在傳統的線性敘事——比如小說、電影中, 作者會設計好一個靜態的敘事內容,這個敘事內容每次呈現在觀眾面前都應該是同一個樣子。
但是Cybertext不同之處在於,作者設計的是一個動態的敘事內容,它每次呈現在觀眾面前都可能是不同的樣子。Aarseth用這幅圖提出了一個“文本機器”的概念。觀眾從一個文本機器中得到的體驗,應該是內容的媒介、媒介的操作者和內容本身三者共同決定的。因此這裡的“內容”,也就是作者去設計的那個東西,它不應該是某種具體的體驗,而應該是能夠動態地產生具體的體驗的一種機制。
而當這種機制不是為了實現某種功能性而設計、而是為了實現某種美學屬性而設計的時候,按照Aarseth的術語,就稱作是Ergodic Literature。
Ergodic 這個詞一般被翻譯成“遍歷的”,更多出現在概率統計和物理學的語境之中,一個常用的含義是形容一個概率分佈具有的一個屬性——從任意樣本出發,能夠通過某種形式的遍歷來窮盡整個概率分佈。所以Ergodic Literature中文也可以叫做是”遍歷文學”。 而在我們現在是在一個媒體的語境下,這個詞表示內容的消費者不能直接到達這個內容要傳達的信息,而要通過媒介和在媒介之上的操作在這個系統所有可能產生的信息中四處遊蕩,以這種方式接近整個系統最終要傳達的那個“真正”的信息。
從諾蘭的《記憶碎片》到《Her Story》,就是一個比較典型的從傳統的靜態敘事到遍歷文學的轉變。除此之外,在Aarseth這本書中也研究了一切其他類型的Cybertext,比如超文本小說文字冒險遊戲故事生成程序、還有MUD (Multi User Dungeon; 多人在線地牢)
Aarseth在這本書中也討論了傳統的基於線性媒體的敘事和遍歷文學之間究竟有什麼區別。其實諸如《記憶碎片》這樣的電影,雖然是一種線性的呈現方式,但它的非線性敘事手法還是給觀眾一種很困惑的感覺,並且需要觀眾去主動地在腦中形成對完整故事的一種解讀。這個效果其實跟《Her Story》通過這個審訊視頻搜索的機制達成的效果是非常類似的。
針對這個問題,Aarseth舉了一個迷宮的例子。他說,有這樣兩種迷宮:
  1. 單行道迷宮:從起點到終點只有一條路,但這條路彎彎曲曲極度曲折,讓人容易迷失方向,在路途中搞不清自己在哪裡;
  2. 多分支迷宮:從起點到終點有許多條道路,每條道路中間又常常分叉產生新的道路,由於道路數量和分支的龐大而讓人容易迷失方向。
這兩種迷宮用不同的方式,但最後都會讓人有一個迷惑的過程。那麼類似地,當我們說“非線性敘事”的時候,我們也可能表達下面兩種情況:
  1. 只有一個可能的敘事內容,這個敘事內容對讀者完全是開放的,但這個敘事內容通過曖昧的語言、刻意的隱瞞、顛倒時間順序等等表達上的迷惑性而讓觀眾產生具有不確定性的解讀;
  2. 有多種可能的的敘事內容,讀者通過操縱媒介到達其中一個具體的敘事內容,觀眾因為只能看到信息全局之中的一個局部,並且不同的觀眾看到的是不同的局部,從而對信息全局的解讀變得有不確定性。
傳統的線性媒體,通過支持上述第一種表達手法來支持非線性敘事。而Cybertext(制動文本)作為一種新的敘事媒介,它能夠支持用上述的第二種方式來實現非線性敘事了。這就是它為非線性敘事帶來的全新的可能性。

基於語言模型的“非線性”敘事

Aarseth的《Cybertext》這本書,發表於1997年。那個時候即使是計算機都還算是比較新奇的技術。受限制於時代,他在書中只能考察一些非常古老的遍歷文學的例子。而在25年後的今天,又有一個劃時代的新技術很有衝擊地出現在世人面前,就是以GPT為代表的大語言模型(Large Language Models)。大語言模型可以說帶來了一種敘事創作的全新的模式。我們今天不妨從遍歷文學的角度來看看這些新的敘事創作方法,看看它們又為非線性敘事帶來了什麼新的可能性。
語言模型大家應該都聽說過,具體可以參看我之前的文章
基於大數據的語言模型與程序化敘事生成。這裡就非常概括地總結一下。
像GPT這樣的大語言模型,本質上是大數據驅動的複雜的統計模型(深度神經網絡),使用大量文本(~1 trillion的字數)來訓練。訓練出來的模型會給我們一個概率分佈:給它任意一個文本序列,它能夠告訴我後續可能出現的文本概率分別是多少。對這個概率分佈進行採樣,就得到輸出文本。再把輸出文本重新作為輸入文本再得到後續文本,這樣就能源源不斷生成文本。
這樣的模型能夠輸出很像是英語的句子,你可以說它學會了說話,但它還不會有目的地去說有價值的話。諸如ChatGPT這樣的對話型語言模型,會進一步使用人類反饋強化學習(Reinforcement Learning Human Feedback),讓人類用戶來給更有價值的回答打高分,沒有價值的打低分。用這些打分數據再訓練一個偏好模型(preference model),使用這個偏好模型對語言模型進行參數微調(Fine-tuning),讓更有價值的回答出現的概率更高。
這樣訓練出來的模型,如果你給它一個提示,它就能夠給你生成一個故事。比如下圖:
像GPT這樣的規模極其龐大的模型,它是能夠去應對一個比這個例子複雜得多的提示的。而且它能夠記住這個提示,帶著這個提示的記憶去繼續對話。
從敘事的創作者的角度,這意味著我們不僅能讓它產生一段靜態的敘事文本,還能指示它去執行一套複雜的機制,這套機制能夠跟作品的觀眾互動。觀眾能夠通過這個機制在作品中探索。這種意義上的語言模型其實本質上就是一種通用計算機(只不過它是通過直覺、而不是邏輯運算來進行信息處理)。
這就是用語言模型來創作互動敘事作品的基本思路。
這裡我們來考察一個網友使用ChatGPT創作的互動破案遊戲(來自https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry)。下面是網友給chatGPT的提示:
https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry 可以看到完整英文提示和玩家與ChatGPT的對話記錄。將英文提示覆制到chatGPT 3.5以上,就能以玩家角色玩這個破案遊戲。(注:翻譯成中文後的提示效果不如原英文提示。)
遊玩過程中, ChatGPT向玩家介紹了案情,生成了五個犯罪嫌疑人的對話,並提示玩家是要對兇手作出推測,還是繼續向嫌疑人提問。如果玩家繼續提問,就可以完全自由地輸入任何問題,ChatGPT會根據角色人設以及與案情的關係自動生成回答。
可以看到,這裡玩家輸入的問題都沒有一個是創作者一開始想到的,而且針對這些問題,角色給出的回答的臺詞也都不是作者事先設計好的,有些破案過程,可能連創作者自己看到了都會覺得驚訝。這段複雜的提示實際上是用自然語言編寫了一套帶來敘事體驗的機制。作者只設計了這個案子本身,他完全沒有去設計玩家是怎麼破案的。
我們現在來比較一下這個這樣用ChatGPT創作出來的破案解謎的交互敘事作品,和前面提到的電影《記憶碎片》和遊戲《Her Story》。當然這個ChatGPT敘事,跟前兩者比起來,遠遠沒有花那麼多心思去構思設計,但我們如果去做一個形式上的比較,還是能發現有意思的東西。
很明顯它們都是懸疑的主題,有一個核心謎團要觀眾去解開。它們都沒有按照時間順序把發生了什麼原原本本地呈現在觀眾面前。它們都需要觀眾從一些碎片化的信息中拼湊出一個完整的故事。
在《記憶碎片》中,導演不但設計出了這個核心謎團、他還設計了這些作為線索的碎片化的信息、最後還設計了觀眾獲得這些碎片化線索的時間順序。這非常符合Aarseth的迷宮比喻中的單行道迷宮的概念。
在《Her Story》中,創作者也設計出了一個核心謎團,也設計出了那些碎片化線索,但是他並沒有去設計一個具體的觀眾獲得這些碎片化線索的具體時間順序,而是去設計了交互式地與觀眾一起決定這個順序的一套機制。這就比較符合Aarseth的迷宮比喻中的多分支迷宮。
而最後,在我們這個用ChatGPT創作的這個很簡單的破案遊戲中,我們當然沒有去設計觀眾獲得線索的順序,我們甚至根本就沒有去設計這些碎片化的線索。我們在這裡只是把虛構出來的這個兇殺案本身告訴ChatGPT,把嫌疑犯的角色設定告訴了ChatGPT。然後整個破案的過程就全部都交給ChatGPT和用戶之間的互動了。我們甚至都很難把它稱作是一種非線性敘事。因為一個敘事是否線性,它首先預設了有一系列的情節片段在那裡,然後再看你是不是把這些情節片段按照時間順序來呈現。而在這個例子中,當創作在設計這個敘事體驗的時候,他自始自終就沒有去設計這些情節片段。這些情節片段是當他的作品與觀眾產生互動的時候實時地產生出來的。如果我們堅持也要套上Aarseth的迷宮比喻,這類作品所對應的迷宮,你可以想象成是一種會變形的迷宮,它不僅有很多岔路、很多分支,甚至當觀眾在其中探索的時候,這些岔路還會變化、還會不斷有新的岔路臨時出現。
所以我們發現,從《記憶碎片》,到《Her Story》,再到這個基於ChatGPT的破案遊戲。從創作者的角度來看,是一個不斷做減法的過程:從設計一個完整的、具體的解開謎團體驗、到只去設計線索片段、最後再到只去設計這個謎團本身。
這其實是一個作者的主導權在不斷地後撤的過程,而觀眾的主導權則在不管增強。作者對觀眾的具體體驗的影響,不能說越來越小,但是可以說越來越間接了。

關於作者性

現在問題來了:當創作者的主導權都後撤到這種地步的時候,這個作品多大程度上還能說是這個作者的作品?
尤其當我們是在用ChatGPT進行創作的時候。我們真正自己產出的東西其實也就只有這段提示。好像絕大多數的機制都發生在ChatGPT這個語言模型那裡。而這個語言模型也不是我們開發出來的。
另外,剛剛的例子裡面我們是直接寫了一大段的提示交給了ChatGPT。而現在市面上其實已經有不少工具能夠讓創作者用更加容易上手、更加結構化的方式去創作他們的交互敘事作品。比如AI Dungeon是非常有名的一個平臺。創作者可以用他們提供的這個非常友好的用戶界面去定義一個故事的場景,或者一個虛構的世界、讓玩家進入到你創作的這個故事或者這個虛構的世界觀中去探索。
另一個例子:Inworld AI是一個創建虛構人物的平臺。創作者在這裡不僅可以去設計一個虛構人物的外觀,還可以去設定這個人物的背景、過去的經歷、性格、說話方式、理想和動機等等。作為創作者不需要去設計這個人物在任何具體的場景重的臺詞,但是通過語言模型,玩家就可以跟這個你設計的人物用自然語言進行對話。
Inworld還提供了一個巧妙的機制,允許把創作者設計好的一段對話和GPT產生的那些對話融合在一起。很多時候創作者不希望一個角色只是跟玩家進行完全自由的閒聊,他希望這個角色承擔一些情節上的推動作用。這個時候他就可以去設計幾個話題,讓這個角色在跟玩家自由聊天的時候刻意地引到這些話題。
那麼如果我只是使用了這種平臺、或者說工具去設計了一個虛擬世界、一個故事、或者一個人物,我能算是最後這個跟觀眾交互的作品的作者嗎?在前面的例子中至少創作者還寫了一大段給chatGPT的提示。如果我用的是這類工具,我甚至連chatGPT拿到的提示具體是什麼樣子都不知道。我對最後觀眾體驗的掌控已經弱到了極致。
在發表於German Studies Review的文章Writing at a Distance: Some Notes on Authorship and Artificial Intelligence(Hannes Bajohr)中,作者提出了”Causal Authorship(因果性作者)”的概念,表示AI輔助的文本創作帶來傳統的創作以外更加間接的創作模式,區分了以下幾種不同創作模式下的作者性:
  • 一手作者(primary authorship):作者直接(用自己的身體親自)創作了作品,也就是傳統的創作模式。
  • 二手作者(secondary authorship):當作者編寫了一段計算機程序,再用這個程序來生成作品,作者與作品之間就相隔了一個程序。
  • 三手作者(tertiary authorship):進入機器學習時代,作者使用一個訓練好的機器學習算法來生成作品,作者與作品之間不僅相隔了一個程序,還相隔了訓練這個機器學習模型的數據集。
  • 四手作者(quaternary authorship):當我們通過類似AI Dungeon或者Inworld AI這樣的平臺來進行創作,我們與機器學習模型之間都不是直接溝通、而是通過平臺提供給我們的結構化的用戶界面,我們與作品之間就還相隔了一個平臺,成為四手作者。
跟這個作者性的問題相關的還有這類作品的藝術性的問題。當創作者對觀眾的體驗的影響間接到這種程度的時候,他所創造出來的這個能夠在ChatGPT上運行的這個東西,似乎更像是一種產生敘事作品的平臺,而不是某種敘事作品本身。這就有些類似於我們可以用視頻剪輯軟件製作出影片作品,但是我們不會說這個視頻剪輯軟件是一種藝術作品。
這無疑是個更加開放的問題,這裡簡單說說我的個人觀點來拋磚引玉。
我覺得像這樣用ChatGPT創作出來的交互敘事作品,跟傳統的那些敘事作品相比,其實有點像是攝影與繪畫的關係。當攝影這種技術剛剛出現的時候,其實大眾也爭論過攝影能不能是一種藝術——他們也是覺得攝影師好像只是按了一個快門,可能事後處理了膠捲,覺得大多數的事情好像都發生在相機那裡。而且攝影在很多情況下都是一種功能性大於藝術性的技術。
而且比起畫家能夠從一張白紙開始畫出任何他想要的內容,攝影師需要去操縱一個更加複雜的由光影規則和物理定律控制的系統,這個系統的掌握不是那麼直截了當的,跟繪畫比起來,這在某種意義上其實也減弱了攝影師在創作過程中的主導權。
但是事實證明攝影也能夠進行藝術表達,它也有他獨特的表達語言。攝影的語言是一種更加宏觀的語言,它讓攝影師能夠更輕鬆地傳達一些用繪畫需要很費力地描繪出的圖景。
那麼同樣的,我們借用語言模型去進行敘事創作,是不是也能看作是在使用一種更加宏觀的語言,讓創作者更輕鬆地傳達一些用傳統的敘事創作需要很費力才能描繪出的內容呢?
理論上是這樣說,但要真正讓人們認同這類作品的藝術性,還是需要一些真正有說服力的作品出現。而現在的我們還出於語言模型投入市場的初期,在這個階段,大家更多思考的是“如何用新技術更有效率地去做現有的事”,而不是“這個新技術能做什麼前所未有的事”。
我個人非常熱切地盼望著第一個真正意義上的里程碑式的作品出現。
作者公眾號: junjunstorytelling | Blog: http://www.psyxel.com/

參考文獻

[1] Aarseth, E.J., 1997. Cybertext: Perspectives on ergodic literature. JHU Press.
[2] Film Momento, 2000 directed by Christopher Nolan, https://www.imdb.com/title/tt0209144/
[3] Game Her Story, 2015, developed by Sam Barlow
[4] Murder mystery game in chatgpt, @SpaceKangaroo, https://www.spacekangaroo.ai/post/murder-mystery-game-in-chatgpt-contest-entry
[4] AI Dungeon, https://aidungeon.com/
[5] Inworld, https://inworld.ai/
[6] Bajohr, Hannes. Writing at a Distance: Some Notes on Authorship and Artificial Intelligence.”. RG Working Papers.





© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com