劉孟
前言
從在自然的平面上拓畫,到在電腦屏幕上用AI生成無窮無盡的圖像洪流。圖像,通過我們的主體感受,塑造著我們的世界意識,也是我們與世界愛欲交流的重要頻道。
只是,在今天這個“技術(shù)圖像的宇宙”(弗魯塞爾所言)中,不斷增殖的圖像,是否正在以前所未有的方式,不斷形塑我們本已支離破碎的世界意識,修正岌岌可危的生存環(huán)境?更多的圖像,究竟是讓我們生活得更加豐饒,還是更加貧瘠?我們是否還能如同過去一樣,通過鏡子和影子——這些人類最早認(rèn)識圖像和自我的方式,確認(rèn)自己在世界上的存在?
與此同時,在這一波以大語言模型為突破的AI圖像的技術(shù)浪潮中,占據(jù)四千多年文化統(tǒng)治地位的線性文字首次成為圖像的先聲,而不是像自然經(jīng)驗(yàn)?zāi)菢樱寛D像先于文字進(jìn)入我們的視野,心靈和頭腦。直觀的領(lǐng)會和無需解釋的世界早已消散,語言的腳手架密密麻麻地爬滿圖像殿堂,遮蔽了我們原本應(yīng)有的圖像想象力。這種能力的喪失,最終意味著什么?
所以,在今天的環(huán)境里,以本體論的方式追問“AI繪畫(生圖)是什么?”“AI能否替代人類繪畫?”或者“AI繪畫的藝術(shù)價值幾何?”并非最為急迫的問題。本文試圖從語言問題進(jìn)入,來討論從文生圖的邏輯出發(fā)的圖像。在第二部分,我們考察AI生圖的技術(shù)鏈路與攝影術(shù)在生成方式和方法上的類似之處,進(jìn)而探討機(jī)械藝術(shù)和技術(shù)圖像,如何令我們承擔(dān)了更多喪失主體性的痛苦。最后,本文試圖通過AI中的萬物風(fēng)格遷移,進(jìn)入藝術(shù)史的舞臺來重新認(rèn)識AI圖像這位“強(qiáng)力的入侵者”。
咒語
一個盲人和朋友在餐廳吃飯,朋友幫他點(diǎn)了一杯牛奶。他問朋友,牛奶是什么?朋友說,牛奶是一種白色的液體。盲人又問:白色是什么?朋友說,白色是一種顏色,就像天鵝的顏色一樣。盲人繼續(xù)問:那么,天鵝是什么?朋友說:天鵝是一種脖子彎曲的鳥兒。盲人還問:彎曲是什么?朋友生氣了,抬起胳膊說:你摸摸我的胳膊,這就是彎曲。
于是,盲人仔細(xì)摸了摸朋友的胳膊,高興地說:現(xiàn)在,我終于知道牛奶是什么了!
我們不妨從這個小故事來思考AI的“文生圖”(text-image)功能。在這個故事里,AI被類比為一個不具備感官能力的盲人。因此,當(dāng)盲人需要理解“白色”這種在經(jīng)驗(yàn)世界無需解釋、一目了然的事,卻只能通過一連串以語言為媒介的比喻、象征和邏輯推導(dǎo)。盲人最終認(rèn)識到,“白色”作為概念的存在可以和其他概念等價交換。但由于缺乏直觀經(jīng)驗(yàn),他得出了一個荒謬的結(jié)論。
那么,現(xiàn)實(shí)生活中的AI是如何能夠正確地“看”到世界的呢?
AI知名學(xué)者、斯坦福大學(xué)教授李飛飛在《我看見的世界》一書中寫道:最初使用imageNet做計(jì)算機(jī)視覺訓(xùn)練的方法,是用一個有明確文字標(biāo)簽的廣闊圖像數(shù)據(jù)集(超過一千萬張)訓(xùn)練機(jī)器,把圖像(pixeldata)數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),讓標(biāo)簽(textcategory)作為監(jiān)督信號,機(jī)器則開始學(xué)習(xí)圖像中哪些特征對應(yīng)哪些類別,從而建立圖像“特征-類別”標(biāo)簽的數(shù)學(xué)映射關(guān)系。
從一開始,機(jī)器就和故事中的盲人一樣,不具備感官能力,它沒有真正地“看”見任何東西。對它的訓(xùn)練,主要集中在讓它理解圖像和語言的關(guān)系,以及讓它能較好地完成文字圖像對齊(text-imagealignment),如此一來就能讓它表現(xiàn)得像是“看”懂了圖像。
而我們今天所使用的大部分AI圖像創(chuàng)作模型,無論是StableDiffusion,還是Midjourney(下稱MJ),GoogleVeo,chatgpt4-o等等,它們雖然都各自發(fā)展出了高度復(fù)雜、跨模態(tài)、深層的圖像生成系統(tǒng),但在方法論上,遵循的都是imageNet所奠定的語言-圖像的基本邏輯。
所以,這也就不奇怪,為什么所有AI生圖的基本前提,必須是一個文本輸入框。這不是什么無中生有的神奇魔法,而恰恰是由于AI不具備真正意義上“看”的器官所致。我們都知道,一段關(guān)于畫的說明文字,不等于這幅畫。而AI卻試圖用栩栩如生的結(jié)果說服我們,這兩者是一回事。
在要求MJ生成的上世紀(jì)80年代家庭相冊中的照片中,我們能夠看到,它選取了“家庭”“80年代”和“家庭相冊”幾個語義清晰的提示詞進(jìn)行圖像合成,同時,類似GPT-4或其他Transformer架構(gòu)模型,它們對更長的token輸入有了更強(qiáng)的“上下文一致性”維持能力,會在某些高頻語義搭配中“補(bǔ)全”一些未被指令明確要求的細(xì)節(jié),比如,將翻拍膠片相片的反光,也自動涵括在數(shù)據(jù)映射集中,進(jìn)行高度的擬合,給我們造成一種逼真的歷史感。但這與我們希望它“理解”相片的歷史環(huán)境,形成判斷和印象,進(jìn)一步明白相片中人物的關(guān)系和感情進(jìn)行創(chuàng)作,卻是完全不相干的兩碼事。
80年代家庭相冊中的照片,由Midjourney生成
原本“純粹落在語言之外的東西”,如今也必須要走語言所規(guī)定的道路——Prompt(提示詞)成為所有想象力的起始和開端,它曾一度被翻譯為“咒語”,這是一個非常有趣的譯法。它無意中點(diǎn)出,機(jī)器模型對我們來說就是一只不透明的神諭盒,我們無需知曉其運(yùn)作原理,只需對其膜拜祈咒,便可以得到想要的結(jié)果。文字從能指符號,變成了帶有前現(xiàn)代巫術(shù)特征的東西;而圖像,卻在咒語的束縛下,丟失自己的想象、直觀與混沌。
那么,咒語究竟要多精確,才能復(fù)現(xiàn)出我們頭腦中的印象,我們的記憶,和我們所期待的圖像呢?
為了驗(yàn)證這個問題,我用諾貝爾文學(xué)獎獲得者埃爾諾的書籍《相片之用》做了一個AI再創(chuàng)作的實(shí)驗(yàn)。
埃爾諾的寫作,本身就被稱為“照相機(jī)風(fēng)格”般的文本,特別是在特殊的、非常私人化的《相片之用》一書中,埃爾諾先是和她的情人布魯諾,共同挑選了一些他們拍下的日?!翱煺铡?,然后在互不交流的情況下,分別對這些照片做出文字性的描述。這是兩個人類,用文學(xué)意義上質(zhì)量最高的文字,對一系列圖像做出的極為細(xì)致的描述。作家用這個方法,構(gòu)筑了一段關(guān)于癌癥、愛情和生命歷程的故事。
那么,AI能夠再次通過這些文字,還原出他們曾經(jīng)經(jīng)歷過的場景嗎?我把埃爾諾如同圖像咒語般的文字,原封不動地給了MJ。
埃爾諾的原文如下:
進(jìn)門處由淺色大塊地磚鋪成的整條走廊上到處散落著衣服和鞋。前景處,右側(cè)是件紅色套衫——或襯衣——和一件黑色無袖短套衫,它們看上去像是在被扯掉的同時還翻了過去。好似一尊袒胸露肩、被砍去了雙臂的半身像。無袖短套衫上的白色標(biāo)簽很顯眼。更遠(yuǎn)處是蜷縮成團(tuán)的藍(lán)色牛仔褲,上面扣著條黑色皮帶。牛仔褲左側(cè)是紅色外衣的紅色內(nèi)襯,像粗麻布拖把一樣攤開著。上面放著一條帶有藍(lán)色格紋的男士短襯褲和一件白色文胸,文胸的肩帶朝著牛仔褲伸去。后方是一只倒向一側(cè)的男士長筒靴,旁邊是一只縮成團(tuán)的藍(lán)色襪子。一雙黑色的薄底淺口皮鞋立在那里,兩只鞋彼此之間離得很遠(yuǎn),鞋的朝向擺成個直角。更遠(yuǎn)處,套衫或裙子構(gòu)成的一團(tuán)黑色從暖氣片下方露了出來。另一側(cè),沿著墻邊的是一小團(tuán)無法辨認(rèn)的黑白色衣物。畫面最深處可以看到一個衣帽架,還有衣架上掛著的風(fēng)衣下擺。閃光燈照亮了整個場景,使地磚和暖氣片顯得愈加亮白,也使側(cè)放著的那只皮鞋閃著光澤。在從一扇門的門框處拍攝的、同一場景的另一張照片上,我們可以看到另一只男鞋和另一只襪子,獨(dú)自留在了樓梯的臺階前。
MJ遵循提示詞生成的照片:
以埃爾諾的文字為提示詞,通過Midjourney生成的圖片
埃爾諾書中拍下的照片
事實(shí)上,我和所有嘗試用AI生圖的人一樣,一遍又一遍地調(diào)整Variety(多樣性)和Weirdness(怪異度)(這兩個都是MJ為了增加圖像風(fēng)格多樣性和離散程度而設(shè)計(jì)的用戶滑塊),以期獲得我滿意的圖片。但是,我們不難發(fā)現(xiàn),無論如何調(diào)整參數(shù),試圖通過精確的文字獲得精確的圖像,是注定失敗和不可能的。甚至,提示詞越精確,得到的結(jié)果越糟糕。
AI圖像無法逃脫咒語的限定,而AI目前處理“非秩序場景”的方法,要么總是顯得模板化、安全和整齊(鞋子總是擺放得太整齊,成對出現(xiàn),不會像真實(shí)生活那樣隨機(jī)),要么它就像一個不知道停手的瘋狂畫家,從像素畫到像素,開始堆砌色塊,圖像出現(xiàn)輪廓喪失和顏色泥化(衣物失去了原本應(yīng)有的結(jié)構(gòu)和形狀)等問題。它無法把“有組織的雜亂”表現(xiàn)得像真實(shí)世界那樣可以理解——這不是通過調(diào)整參數(shù)就能解決的問題,而是目前擴(kuò)散模型和token化機(jī)制的結(jié)構(gòu)化限制。歸根到底,AI生圖的本領(lǐng)建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)上。從本質(zhì)上來說,是機(jī)器在語義連貫性和空間秩序上,努力模仿人類直觀地從生活經(jīng)驗(yàn)中獲得的印象。
阿米戈酒店223號房間(Midjourney生成的圖片)
埃爾諾的文字不僅精確描寫了物的形象,還在行文之間埋藏象征、比喻和尖銳的情感指向,這些都無法在AI生成的相片中得到準(zhǔn)確的傳達(dá)。
延伸開來說,在這個實(shí)驗(yàn)中,另一個和攝影倫理相關(guān)的問題是——機(jī)器生成的,是“應(yīng)該存在而實(shí)際上不存在”的圖像。但真實(shí)的相片,則永遠(yuǎn)指向一個具體的事件和情境,也就是羅蘭·巴特(RolandBarthes)所說的“?aaété”(Thathasbeen)——這曾經(jīng)存在。埃爾諾寫下的文字,對應(yīng)著他們曾經(jīng)共同經(jīng)歷過,在癌癥中擁抱生命,激情地活著的歷程。相片,就如同法庭上的呈堂證供,提供著一種不容辯駁的、曾經(jīng)在場的真實(shí)性。
阿米戈酒店223號房間(照片)
讓我們再次回到那個問題:無論AI如何說服我們,一張關(guān)于圖片的說明,就等于這張圖片,這都是不成立和不可能的。
當(dāng)然,一定會有人提出,除了text-img選項(xiàng),大部分AI生圖模型,不是都幾乎同一時間,貼心地提供了圖生圖(image-to-image)的選項(xiàng)嗎?那么,我們能夠把它看作是擺脫語言牢籠的AI創(chuàng)作嗎?我們能夠認(rèn)為,語義引導(dǎo)的結(jié)構(gòu)在這里不存在嗎?事實(shí)并非如此,這個工作流中的前一個圖像,只能被看作另一組圖像形式的提示詞,而后一個圖像,則是基于已有圖像的潛在(latent)結(jié)構(gòu)進(jìn)行再建?;蛐拚慕Y(jié)果。
圖生圖是對文生圖模式的補(bǔ)充,甚至我們還可以把它增加至聲音+文字+圖像的更多模態(tài)引用,它似乎把我們緩慢地拖離語言中心主義,但就其形態(tài)和目的而言,它依然是從像素到像素的存在。在這里,沒有真正的世界存身的空間。
那么,人類藝術(shù)家們,源于文本和現(xiàn)成的圖像的創(chuàng)作又是如何的呢?米開朗基羅的西斯廷天頂繪畫——7幅表現(xiàn)圣經(jīng)舊約內(nèi)容的故事繪畫,被高高懸掛在天穹之上,從創(chuàng)世紀(jì)到大洪水,從上帝制造亞當(dāng)?shù)较耐藓蜕?,每一幅都對?yīng)著人們耳熟能詳?shù)墓适挛谋?。不僅僅是米開朗基羅,在貫穿西方藝術(shù)史大量的宗教題材繪畫中,假如我們把圣經(jīng)文本當(dāng)作一個先決的提示詞(prompt)集合,那么,它是否就為文生圖提供了海量的圖像實(shí)例?
米開朗基羅不是第一個畫圣經(jīng)的藝術(shù)家,顯然也不是最后一個,他生活在人類前后相繼的視覺傳統(tǒng)中,對歷史有直接觀看以及觸摸的經(jīng)驗(yàn)。他未必是從圣經(jīng)的語言出發(fā)來機(jī)械地圖解化這些故事,而是直接面對大量的圖像集合和藝術(shù)實(shí)例。雖然上帝這一概念是形而上的,但其形象卻是歷史中的人通過總結(jié)、沉思、搏斗和再象征得到的。米開朗基羅通過觀看、觸摸、體會、感受人類實(shí)體,做出了自己的圖像回應(yīng),重建了視覺歷史的秩序。
其次,圣經(jīng)是文學(xué)的語言,是神話和寓言的世界,而不是提示詞式機(jī)械地執(zhí)行指令,人類之所以理解圣經(jīng)所闡述的故事,是因?yàn)槲覀兙蜕钤谑澜缰?,我們借助故事來闡發(fā)自己對生存的渴望、激情和感受。而對AI來說,世界的存亡與否都無關(guān)緊要,它只需要執(zhí)行數(shù)據(jù)點(diǎn),計(jì)算特征向量,按照統(tǒng)計(jì)概率輸出結(jié)果即可。
事實(shí)上,上帝創(chuàng)造亞當(dāng)?shù)臅r候,他是怎么說的呢?
“要照著我們的形象、樣式造人。”(“ThenGodsaid,‘Letusmakemankindinourimage,inourlikeness…andletthemhavedominion…’SoGodcreatedmankindinhisownimage,intheimageofGodhecreatedthem;maleandfemalehecreatedthem.”)在這里,上帝并沒有先寫下一段造人的提示詞,他直接從自己的形象里,造出了人。
圖像一詞,除了外顯之形、顯現(xiàn)、影像的意思,還和想象(imagination)共享了同一個拉丁文原文imago,它還意味著,在心中再造“形象”的能力,因此,圖像不僅是人的被造狀態(tài),更是人的想象性本質(zhì)。而如今,線性的文本預(yù)編碼了我們對圖像的想象。AI交還給我們的,那些看似擁有驚人細(xì)節(jié)和不可思議的圖像,并非真正的圖像,而是語言的圖像索引版本(往往是一堆概念的縫合、拼接和融合),是具有圖像性的數(shù)據(jù)集合,是徒勞地對盲人解釋何為顏色。
然而真正的危機(jī)是,盡管今天我們還會承認(rèn),米開朗基羅的工作不能被AI替代,但我們確實(shí)可以通過輕松地為語料庫增加數(shù)據(jù)的方式,來訓(xùn)練一個AI,讓它替代歷史上真實(shí)的米開朗基羅。
米開朗基羅的“最新作品”,由Midjourney生成
每一個圖像模型的公司都意識到了,只有人類創(chuàng)造的圖像實(shí)例,才是世界本身的鏡像。因此,開采圖像實(shí)例,自然而然地成為了他們的終極使命所在。無論是Sora還是MJ,它們無一例外野心勃勃地宣稱,自己要做的絕不僅僅是些文生圖的小把戲,而是要徹底地、革命性地創(chuàng)建“世界模型”。正如MJ的圖生視頻更新這樣說:“正如你所知道的,過去幾年我們的重點(diǎn)是圖像。但你可能不知道,我們相信,這項(xiàng)技術(shù)最終將走向的,是能夠模擬實(shí)時開放世界的模型?!保ˋsyouknow,ourfocusforthepastfewyearshasbeenimages.Whatyoumightnotknow,isthatwebelievetheinevitabledestinationofthistechnologyaremodelscapableofreal-timeopen-worldsimulations.)
一個實(shí)時、開放的世界模型,和我們所處的真實(shí)世界又能夠有什么本質(zhì)區(qū)別呢?這些硅谷公司似乎決心通過踐行博爾赫斯的理想成為上帝,創(chuàng)造出一張能夠覆蓋全世界1:1的地圖,用擬像覆蓋全世界。更進(jìn)一步的設(shè)想,是即便整個自然界不復(fù)存在,AI依然可以源源不斷地生產(chǎn)出關(guān)于外部世界的新圖像,我們終將進(jìn)入信息總和遠(yuǎn)遠(yuǎn)大于自然總和的超真實(shí)世界。這在概念上是可能的,在技術(shù)上也正在實(shí)現(xiàn)。何況“虛擬”并非新問題,正如弗魯塞爾所說,一張超真實(shí)的全息桌子,可以讓人安然地把打字機(jī)安置其上。
于是,這一次,柏拉圖洞穴中被縛的是AI,而我們,則成了那團(tuán)映照世界的火。
十二生肖動物頭像鉤針,12款都集齊了,給寶寶鉤雙生肖鞋!附圖解
此外,兔還是中國十二生肖中的一員,與人們的生活緊密相連|。體型兔,作為兔形目兔科兔屬的草食性脊椎動物,其體型變化多樣。大體上,可分為大型兔、中型兔和小型兔-|。大型兔的體重大約在5~8公斤,甚至有少數(shù)超過8公斤的;中型兔的體重大約在2~4公斤;而小型兔的體重大約在2公斤以下。兔的軀體一般由頭頸部、軀希望你能滿意。
來源:紅網(wǎng)
作者:澄弘偉
編輯:由凡桃
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。