實踐項目 返回列表

超越ChatGPT:大型語言模型的力量與人類交流的困境

2023/11/17 14:44:55

以GPT3/4爲代表的大型語言模型被(bèi)業界宣傳爲“基礎性的”, 是人工智能(néng)領域科學(xué)進(jìn)步的主要轉折點。這(zhè)類叙述忽略了大規模的人工智能(néng)模型主要由大科技公司控制,因爲它們需要巨大的計算和數據資源,并且還(hái)引發(fā)了圍繞錯誤信息和歧視、隐私和安全漏洞以及負面(miàn)環境影響等多方面(miàn)的擔憂。同時,無論大型語言模型及其訓練數據集變得多麼(me)龐大,它們永遠無法像人類一樣(yàng)學(xué)習和理解我們的語言。在此情況下,本文分析了大型語言模型的四大發(fā)展趨勢,并指出,爲了充分了解其範圍和力量,探索大型語言模型如何影響社會的不同方面(miàn)非常重要。特别是,大型語言模型將(jiāng)帶來人類交流的困境,我們需要傳播理論和基于倫理的傳播實踐的更新,來确定下一代傳播研究的面(miàn)貌。


引言

通過(guò)交流,我們創造并改變了我們生活的世界——其中既包括我們的價值觀,也包括我們的工具。大型語言模型是強大的工具,可以幫助我們自動化和簡化複雜的任務,并有可能(néng)徹底改變我們與技術交互的方式。然而,它們并非沒(méi)有限制和風險。


交流離不開(kāi)語言。與其他人工智能(néng)應用相比,語言是一個更加棘手的問題,它的風險也更高。自然語言處理(NLP, natural language processing)與一些互聯網巨頭的核心業務密切相關,例如谷歌的搜索與Meta的社交媒體參與。作爲一個社會,我們也許從未如此清醒的意識到語言造成(chéng)傷害和貶低的危險,也從未如此清醒地意識到我們的語言中微妙的、結構性的、往往是無意地將(jiāng)人予以他者化的形式。


ChatGPT正在被(bèi)過(guò)億用戶使用,其中許多人沒(méi)有接受過(guò)任何關于如何合倫理地使用這(zhè)樣(yàng)的系統,或如何确保系統不會造成(chéng)傷害的教育。除了區分人類和機器的困難,我們也需要更多的研究來幫助我們了解人工智能(néng)將(jiāng)會怎樣(yàng)影響我們與其他人的互動。


這(zhè)一切將(jiāng)帶來一個全新的交流環境。在一個日益由可以模仿人類自然語言能(néng)力的人工智能(néng)工具主導的世界中,真實和信任意味著(zhe)什麼(me)?偏見和錯誤信息又將(jiāng)導緻什麼(me)?很多問題超越了技術範圍。傳播學(xué)者需要成(chéng)爲有關人工智能(néng)技術發(fā)展的對(duì)話的中心。

大型語言模型成(chéng)新寵

由于ChatGPT爆火的緣故,大型語言模型(LLM, large language model)集萬千寵愛于一身。但它們是什麼(me)呢?簡單地說,LLMs是一種(zhǒng)計算機系統,被(bèi)設計用來學(xué)習文本語料庫的統計屬性,以生成(chéng)模仿原始文本風格和内容的新文本。換言之,LLMs能(néng)夠生成(chéng)現實而較爲準确的新文本,看起(qǐ)來像是由一個真實的人撰寫的。


LLMs的核心基于一種(zhǒng)強大的機器學(xué)習技術,即深度學(xué)習。深度學(xué)習是人工智能(néng)的一個子集,能(néng)夠自動學(xué)習數據中的複雜模式。深度學(xué)習算法的靈感來自于大腦從經(jīng)驗中學(xué)習的能(néng)力,它們通常使用神經(jīng)網絡來實現——計算系統的結構與大腦非常相似。事(shì)實上,如果不使用先進(jìn)的水印策略,就不可能(néng)準确區分由人類頭腦所寫的文本和由高度可并行的人工神經(jīng)網絡所産生的文本,後(hòu)者的神經(jīng)連接數要少得多。


傳統機器學(xué)習算法和深度學(xué)習算法之間的一個關鍵區别是,深度學(xué)習算法可以擴展到更大的數據集,它們可以從非結構化或未标記的數據中學(xué)習。這(zhè)使得它們非常适合于自然語言處理等任務,這(zhè)也是LLMs的用途。大型語言模型現在被(bèi)認爲是人工智能(néng)的前沿,因其有可能(néng)執行需要創造力、推理和理解自然語言的任務。


大型語言模型于2017年在谷歌大腦(Google Brain)開(kāi)始使用,研究人員推出了transformer(轉換器)架構,它是自然語言處理中使用的一個基于深度學(xué)習模型的神經(jīng)網絡,訓練可以實現并行化,這(zhè)爲訓練真正的大模型首次提供了機會。此後(hòu),大型語言和文本-圖像模型在領先的技術公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook/Meta(OPT-175B、Galactica、BlenderBot、LLaMA)、英偉達和微軟(Megatron-Turing),當然還(hái)有OpenAI,微軟是主要的投資者(GPT-3/4用于文本,DALL-E2用于圖像,Whisper用于語音)。在線社區,如Midjourney,以及Hugging Face等開(kāi)源供應商,也創造了生成(chéng)模型。


新的玩家還(hái)在不斷進(jìn)場。2023年3月,彭博社推出BloombergGPT(Bloomberg Professional Services, 2023),系根據專有來源的金融數據訓練的LLM,“在金融任務上比現有的模型有明顯的優勢,而不影響一般LLM的基準性能(néng)”(Wu, 2023)。4月,資助開(kāi)發(fā)“穩定擴散”(Stable Diffusion)等開(kāi)源生成(chéng)式人工智能(néng)模型的Stability AI宣布推出StableLM語言模型套件。在爲多個領域(包括圖像、音頻、視頻、3D和生物學(xué))開(kāi)發(fā)模型之後(hòu),這(zhè)是該開(kāi)發(fā)商首次加入目前由技術大腕主導的語言模型遊戲(Dey, 2023)。同在4月,亞馬遜在AWS中推出Bedrock服務,在一個平台上提供多種(zhǒng)生成(chéng)式人工智能(néng)模型。例如,Stability AI的Stable Diffusion圖像生成(chéng)器,可以將(jiāng)文本變成(chéng)圖像;AI21實驗室的Jurassic-2模型是一個多語言LLM,可以生成(chéng)德語、西班牙語、法語、葡萄牙語、荷蘭語和意大利語文本;Anthropic的Claude是ChatGPT的一個對(duì)手,可以使工作流程自動化、回答問題,并與用戶進(jìn)行交流。與微軟和Alphabet相比,亞馬遜可能(néng)看起(qǐ)來姗姗來遲,但它的做法相當精明。通過(guò)Bedrock,亞馬遜不隻是提供對(duì)上述第三方平台的訪問,也提供對(duì)其專有的大型語言模型Titan的訪問,這(zhè)可能(néng)使亞馬遜變成(chéng)那些希望使用LLMs并根據其需求構建應用程序的企業的首選平台(Chauhan, 2023)。


時至今日,除了蘋果之外,美國(guó)每家主要科技公司都(dōu)宣布了自己的LLM。中國(guó)的科技公司當然亦不甘落後(hòu):2023年3月,百度推出文心一言并在官宣後(hòu)爲新浪财經(jīng)、澎湃新聞、愛奇藝、美的集團、東風日産等一系列企業提供接入服務;2022年,阿裡(lǐ)達摩院發(fā)布通義大模型,并在2023年4月正式推出通義千問;再加上2022年騰訊對(duì)外披露的混元大模型和2021年華爲發(fā)布的盤古大模型等等,不一而足,人稱“萬模大戰”。在TB級文本數據上訓練的大型語言模型成(chéng)爲高科技行業最熱門的一角。


LLMs對(duì)大型科技公司很重要,因爲它們可以實現新的産品和服務,從而吸引更多的用戶,産生更多的收入,并創造更多的價值。例如,LLMs可用于改進(jìn)搜索引擎、社交網絡、雲計算、數字助理、電子商務、遊戲、教育、醫療保健等。此外,科技公司可以用LLMs來改進(jìn)企業的現有産品線。例如,無論是語音數字助理還(hái)是爲營銷人員自動投放廣告,谷歌都(dōu)將(jiāng)人工智能(néng)作爲未來的突破性技術,使下一代服務和設備更加智能(néng)化、功能(néng)更強。


生成(chéng)式模型的重要價值之一是它們與生産力應用程序的整合。例如,微軟在企業Office套件市場中有明顯的優勢,正在將(jiāng)生成(chéng)式模型整合到Word、Outlook和Teams等應用程序中。中國(guó)科技巨頭阿裡(lǐ)巴巴在生成(chéng)式人工智能(néng)方面(miàn)的最新努力,在某種(zhǒng)程度上讓人聯想到微軟,即通過(guò)讓人們用自然語言來描述他們想要建立的東西,令各種(zhǒng)應用程序變得更容易使用。阿裡(lǐ)巴巴宣布,通義千問將(jiāng)被(bèi)整合到公司的各項業務中,以改善用戶體驗,客戶和開(kāi)發(fā)人員可以通過(guò)利用該模型創建定制的人工智能(néng)功能(néng)。


同時,人工智能(néng)初創企業經(jīng)常以超過(guò)10億美元的估值籌集資金。例如,6月13日,英國(guó)人工智能(néng)初創公司Synthesia表示,它從風險投資公司Accel和Nvidia旗下NVentures牽頭的一輪融資中籌集了約9000萬美元,估值爲10億美元。該公司的技術幫助包括亞馬遜在内的5萬多家企業創建用于教學(xué)和企業視頻的定制AI化身。這(zhè)表明,大量企業希望將(jiāng)傳統視頻制作轉變爲數字工作流程(Reuters, 2023)。Synthesia隻是一個人工智能(néng)初創企業快速獲得獨角獸地位的例子。在利率上升和高通脹導緻的更廣泛的融資放緩中,人工智能(néng)初創企業已經(jīng)成(chéng)爲2023年投資的一個亮點。

人工智能(néng)爲什麼(me)非得是大模型?

就這(zhè)樣(yàng),大型通用人工智能(néng)模型被(bèi)業界宣傳爲“基礎性的”,是該領域科學(xué)進(jìn)步的主要轉折點。這(zhè)類叙述分散了“規模病症”的注意力,這(zhè)些病症每天都(dōu)變得更加根深蒂固:大規模的人工智能(néng)模型主要由大科技公司控制,因爲它們需要巨大的計算和數據資源,并且還(hái)引發(fā)了圍繞歧視、隐私和安全漏洞以及負面(miàn)環境影響等多方面(miàn)的擔憂。


例如,GPT-3最初是在45TB的數據上訓練的,并采用了1750億個參數來進(jìn)行預測;GPT-3的一次訓練就花費了1200萬美元(Davenport, Mittal, 2022)。另據報道(dào),OpenAI使用1萬個英偉達GPU訓練ChatGPT(Goldman, 2023),而ChatGPT每天給OpenAI帶來70萬美元的成(chéng)本(Gardizy, Ma,2023)。而最新的GPT-4的訓練耗資超過(guò)1億美元(Knight, 2023)。大多數公司沒(méi)有數據中心能(néng)力或雲計算預算來從頭開(kāi)始訓練這(zhè)類模型,許多現成(chéng)的、預訓練的人工智能(néng)模型,作爲雲人工智能(néng)服務的一部分提供,而此市場本已集中在大科技公司手中,如AWS(亞馬遜)、GCP(谷歌雲平台)和Azure(微軟)。這(zhè)些雲供應商每年總共花費超過(guò)1000億美元的資本,以确保擁有最全面(miàn)、最可靠和最具成(chéng)本競争力的平台。特别是在生成(chéng)式人工智能(néng)方面(miàn),它們也受益于供應限制,因爲它們可以優先獲得稀缺的硬件(如Nvidia A100和H100 GPU)(Bornstein, Appenzeller, Casado, 2023)。


大科技公司可能(néng)會保持先發(fā)優勢,因爲它們有時間和市場經(jīng)驗來磨練基礎語言模型,并發(fā)展寶貴的内部專業知識。因此,較小的企業或初創公司可能(néng)難以成(chéng)功進(jìn)入這(zhè)一領域,從而使得LLM的巨大處理能(néng)力集中在少數幾家大科技公司手中。


2021年,埃米莉·本德(Emily M. Bender)博士、蒂姆尼特·蓋布魯(Timnit Gebru)博士、安吉麗娜·麥克米蘭-梅傑(Angelina McMillan-Major)和瑪格麗特·米切爾(Margaret Mitchell)博士在一篇題爲《論随機鹦鹉的危險》的論文中對(duì)LLM的潛在成(chéng)本和危害提出警告(Bender et al., 2021),這(zhè)篇論文導緻谷歌將(jiāng)蓋布魯和米切爾從人工智能(néng)倫理團隊的共同領導位置上趕走(Metz, Wakabayashi, 2020;Metz, 2021)。該論文在确定困擾LLM的規模病症方面(miàn)有先見之明。當公衆讨論被(bèi)圍繞著(zhe)ChatGPT和其他LLMs的令人窒息的炒作所吞噬之際,這(zhè)項研究提出了清醒的警告:我們需要讨論社會是否應該建立這(zhè)類技術,而不是如何建立,更不是不加批判地將(jiāng)其作爲進(jìn)步的同義詞而加以全盤接受。本德等人問道(dào):“越來越大的語言模型是不可避免的還(hái)是必須的?這(zhè)一研究方向(xiàng)有什麼(me)成(chéng)本,我們在追求它之前應該考慮什麼(me)?”


擇其要者,大型語言模型可見的成(chéng)本就有:


環境和财務成(chéng)本


LLMs的訓練需要大量的能(néng)源,并産生大量的二氧化碳排放。在GPU上訓練一個BERT基礎模型所需的能(néng)量與一次橫跨美國(guó)的飛行一樣(yàng)多(Bender et al., 2021)。大多數雲計算供應商的能(néng)源不是來自可再生能(néng)源,而且世界上許多能(néng)源也不是碳中和的。此外,哪怕是可再生能(néng)源,對(duì)環境來說仍然是昂貴的。數據中心爲了滿足越來越多的計算需求,占用了綠色能(néng)源的其他潛在用途,爲此,迫切需要節能(néng)型的模型架構和訓練模式。


環境問題與種(zhǒng)族問題的交彙,意味著(zhe)被(bèi)邊緣化的人和來自多數世界/全球南方的人更有可能(néng)體驗到能(néng)源消耗和二氧化碳排放增加所帶來的傷害,盡管他們也是最不可能(néng)體驗到這(zhè)種(zhǒng)模型的好(hǎo)處的一群。碳足迹將(jiāng)取決于能(néng)源的使用和正在使用的能(néng)源的碳強度。不僅僅是LLMs有很大的能(néng)源影響,而且其中的碳影響將(jiāng)首先爲那些沒(méi)有從這(zhè)項技術中受益的人帶來成(chéng)本。所以,當我們做成(chéng)本效益分析時,重要的是要考慮到誰在得到好(hǎo)處,誰在支付成(chéng)本,因爲兩(liǎng)者不是同一批人。


此外,進(jìn)入和訓練這(zhè)些模型的成(chéng)本很高,這(zhè)意味著(zhe)隻有一小部分全球精英能(néng)夠發(fā)展并受益于LLMs。由于其複雜的性質,它們的建立和維護可能(néng)是困難和昂貴的。它們還(hái)需要大量的訓練數據,而這(zhè)些數據可能(néng)很難獲得,處理起(qǐ)來也非常昂貴。由此,大規模算力會將(jiāng)LLMs限制于隻有資源最豐富的公司和研究者才能(néng)使用,而把小型開(kāi)發(fā)商排除在外。所以,環境和财務成(chéng)本應該成(chéng)爲自然語言處理研究中的首要考慮因素。


不負責任的訓練數據 


使用大量未經(jīng)整理的訓練數據集有可能(néng)創造出鞏固主導性、霸權性觀點的語言模型。這(zhè)些訓練數據集的龐大規模并不能(néng)保證多樣(yàng)性,因爲它們往往是從網站上抓取來的,而這(zhè)些網站由于互聯網接入不足、代表性不足、過(guò)濾或騷擾等問題而排除了邊緣化人群的聲音。這(zhè)些數據集有“價值鎖定”的風險,或許會將(jiāng)有害的偏見編碼到難以徹底審計的語言模型中。


如果模型是在過(guò)濾有限的大量互聯網數據上訓練出來的,它們就會吸收事(shì)實和錯誤信息、有偏見的内容和公平的内容、有害的材料和無害的材料。如果沒(méi)有辦法在回答提示之前評估這(zhè)些标準,LLMs就有可能(néng)陷入複制、放大和傳播有問題的内容和錯誤信息的危險。


“随機鹦鹉”的誕生


本德等人進(jìn)一步警告說,對(duì)語言模型的追求可能(néng)是一個誤導性的研究方向(xiàng)。她們觀察到,語言模型就好(hǎo)比“随機鹦鹉”(stochastic parrot),“根據關于如何組合的概率信息,胡亂地將(jiāng)它在龐大的訓練數據中觀察到的語言形式序列[縫合]在一起(qǐ),但沒(méi)有任何對(duì)意義的參考”(Weil, 2023)。也就是說,大型語言模型善于生成(chéng)令人信服的語言,但實際上并不理解它所處理的語言的含義。


“随機鹦鹉”的比喻突出了兩(liǎng)個重要的局限性:第一,學(xué)習機器所作的預測基本上是在重複數據的内容,加上一些由模型的限制造成(chéng)的噪音(或随機性)。第二,機器學(xué)習算法并不了解它所學(xué)習的問題。它無法得知自己什麼(me)時候在重複一些不正确的、脫離上下文的或令社會感覺不适的東西。由于這(zhè)些局限性,學(xué)習機器可能(néng)會産生“危險的錯誤”(Lindholm et al., 2022)。


ChatGPT的不可靠性會給任何使用它來生成(chéng)相應文本的機構帶來相當大的法律、财務和聲譽風險。正如沃倫·巴菲特(Warren Buffett)所說:“建立聲譽需要20年,而毀掉聲譽隻需要5分鍾。”如果LLM用于重要任務,它可能(néng)會創建一種(zhǒng)新的職業(LLM事(shì)實檢查員)和一種(zhǒng)新的保險範圍(爲了彌補LLM 錯誤)。


進(jìn)一步地說,随機鹦鹉的問題可以被(bèi)看作是人工智能(néng)和機器學(xué)習的一個更普遍的挑戰:如何确保模型是真正的學(xué)習和推理,而不是僅僅去記憶數據當中的模式?随著(zhe)模型的規模和複雜性不斷增長(cháng),以及它們越來越多地被(bèi)用于醫療保健、金融和運輸等高風險的應用中,這(zhè)一挑戰顯得尤爲突出。


由此觀之,當模型過(guò)于依賴複制語言模式而并不真正理解其含義時,随機鹦鹉問題就會出現。如果不加以控制,随機鹦鹉會對(duì)人工智能(néng)的發(fā)展和部署,以及依賴這(zhè)些技術完成(chéng)重要任務的用戶産生嚴重後(hòu)果。這(zhè)凸顯了通過(guò)仔細的模型設計、評估和持續監測來解決此問題的重要性。


最終,我們需要問自己,爲什麼(me)要把人工智能(néng)的未來全部押注在大型語言模型一條路上?紐約大學(xué)教授兼Meta首席AI科學(xué)家楊樂昆(Yann LeCun)就認爲LLM是“一條下坡路”,遠離了通往更強大的AI的道(dào)路(The Economist, 2023)。“大型語言模型能(néng)有多聰明,能(néng)有多準确,都(dōu)是有限度的,因爲它們沒(méi)有現實世界的經(jīng)驗,而這(zhè)确實是語言的基本現實”。他指出,人類所學(xué)的大部分内容都(dōu)與語言無關。“我們學(xué)習如何投擲籃球,讓它穿過(guò)籃圈”,深度學(xué)習的另一位先驅者傑弗裡(lǐ)·辛頓(Geoffrey Hinton)說:“我們根本不使用語言來學(xué)習。我們從試驗和錯誤中學(xué)習。”(Smith, 2023)

就算語言是發(fā)展人工智能(néng)的重要途徑,事(shì)情也很明顯:無論LLMs及其訓練數據集變得多麼(me)龐大,它們也永遠無法像我們一樣(yàng)學(xué)習和理解我們的語言。吊詭的是,語言模型的限制導緻了一種(zhǒng)研究趨勢,即專注于研究這(zhè)類模型的知識和行爲。換言之,人類正在學(xué)習LLMs的語言,并尋找更好(hǎo)地與它們溝通的方法。


這(zhè)是因爲,語言模型是神經(jīng)網絡,根據從網絡收集的數據進(jìn)行訓練。經(jīng)過(guò)訓練後(hòu),模型可以接收提示并預測其後(hòu)的單詞。神經(jīng)網絡越大,模型的學(xué)習能(néng)力就越強。數據集越大,模型接觸不同單詞序列的機會就越大,生成(chéng)文本時就越準确。


可問題是,人類語言不僅僅是文本。事(shì)實上,語言是一種(zhǒng)將(jiāng)信息從一個大腦傳輸到另一個大腦的壓縮方式。我們的談話經(jīng)常忽略共享知識,例如視覺和聽覺信息、世界的物理體驗、過(guò)去的談話、我們對(duì)人和物體行爲的理解、社會結構和規範等。


正如楊樂昆和紐約大學(xué)計算機科學(xué)系博士後(hòu)雅各布·布朗甯(Jacob Browning)在最近的一篇文章中所寫到的,“僅靠語言訓練的系統永遠不會接近人類智力,即使從現在開(kāi)始訓練直到宇宙熱寂”。雖然兩(liǎng)位科學(xué)家也指出,如果我們停留在表面(miàn)上,語言模型“無疑會接近(人類智能(néng))。而且,在許多情況下,表面(miàn)就足夠了”,但是我們絕不應該把LLMs擁有的淺層理解與人類從觀察世界景象、探索世界、在世界中進(jìn)行實驗以及與不同文化和其他人互動中獲得的深層理解相混淆(Browning, LeCun, 2022)。


所以,假如我們用“語言的統計模型”而不是“大型語言模型”來描述這(zhè)種(zhǒng)人工智能(néng)技術,是否會帶來更清楚的認知?這(zhè)樣(yàng)會使我們認識到,統計推理肯定不是人類合作、創造、協調和競争的全部故事(shì)。


所有人類的知識最終都(dōu)能(néng)被(bèi)抓進(jìn)機器的說法是沒(méi)有意義的。我們隻能(néng)把可以用比特串表示的知識放入機器。像體育、音樂、木匠大師或創意寫作這(zhè)樣(yàng)的技能(néng)是無法精确描述和記錄的,技能(néng)的描述并不就能(néng)夠賦予表演的能(néng)力。即使它們可以被(bèi)代表,表演技能(néng)的形式也是無法被(bèi)記錄的——它包括表演者的想法和思考,他們的神經(jīng)元記憶狀态,以及他們的神經(jīng)肌肉化學(xué)模式。所有這(zhè)些沒(méi)有記錄的和無法記錄的信息的數量遠遠超出了可能(néng)存儲在機器數據庫中的範圍。與人類的能(néng)力相比,大型語言模型所能(néng)執行的任何功能(néng)都(dōu)是很小的。


我們是否已經(jīng)被(bèi)大型語言模型迷住了,以至于沒(méi)有看到我們利用語言所做的其他事(shì)情?我們建立關系。我們互相關照。我們認識并駕馭我們的情緒。我們建立并行使權力。我們做出承諾,并貫徹執行。我們創建組織和社會。我們創造傳統和曆史。我們爲行動負責。我們打造信任。我們培養智慧。我們愛。我們想象以前從未想象過(guò)的東西。所有這(zhè)些都(dōu)不是統計學(xué)上的。大型語言模型的能(néng)力與人類的能(néng)力之間存在著(zhe)巨大的鴻溝。

大型語言模型的四大發(fā)展趨勢

像LLMs這(zhè)樣(yàng)的大規模人工智能(néng)模型在過(guò)去一段時間裡(lǐ)中受到了最多的炒作,也帶來了最大的恐懼。圍繞這(zhè)些系統的興奮和焦慮都(dōu)有助于強化如下概念,即這(zhè)些模型是“基礎性的”,盡管它們無法對(duì)人類提示作出有意義的回應的例子數不勝數。值得注意的是,這(zhè)些模型之所以作爲“基礎性”的技術被(bèi)引入,其實意是在將(jiāng)它們等同于無可置疑的科學(xué)進(jìn)步,成(chéng)爲“通用人工智能(néng)”(這(zhè)是另一個模糊的術語,讓人聯想起(qǐ)科幻小說中關于取代或超越人類智能(néng)的概念)道(dào)路上的踏腳石,從而使其被(bèi)廣泛采用成(chéng)爲必然。


在最近的一次采訪中,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)說:“我認爲我們正處于巨大模型時代的終結,我們將(jiāng)以其他方式讓模型變得更好(hǎo)。”(Miller, 2023)言下之意是,未來的進(jìn)展不會來自于將(jiāng)模型做得更大。


而這(zhè)些“其他方式”是什麼(me)?一個可能(néng)的途徑是在更多的高質量數據上對(duì)模型進(jìn)行微調,創造更好(hǎo)的訓練技術。人工管策的數據集可能(néng)是非常有價值的,但創建成(chéng)本高,速度慢。根據大型語言模型的現狀,筆者認爲,有四大發(fā)展趨勢值得高度關注:


第一,我們需要緻力于教會語言模型表達不确定性


在大多數情況下,人類知道(dào)自身的局限性(即使他們不直接承認)。他們可以表達不确定和懷疑,并讓對(duì)話者知道(dào)他們對(duì)自己所傳授的知識有多自信。而與此相對(duì)照,語言模型總是對(duì)任何提示都(dōu)給出現成(chéng)的答案,即使它們的輸出是毫無意義的。神經(jīng)網絡通常提供某個預測正确概率的數值。然而就語言模型而言,這(zhè)些概率分數并不代表模型對(duì)提示響應的可靠性的信心。


OpenAI和牛津大學(xué)的研究人員發(fā)表的一篇論文表明,可以通過(guò)教LLMs“用語言表達它們的不确定性”來彌補這(zhè)一缺點。可對(duì) LLMs進(jìn)行微調,以使用自然語言表達認知上的不确定性,研究者將(jiāng)之描述爲“語言化概率”(verbalized probability),即用語言表達出來的概率。這(zhè)是一個重要的發(fā)展方向(xiàng),尤其是在用戶希望將(jiāng)語言模型的輸出轉化爲某個動作的應用程序中。研究人員建議,表達不确定性可以令語言模型誠實。“如果一個誠實的模型出現一個誤導或惡意的内部狀态,那麼(me)它可以將(jiāng)這(zhè)種(zhǒng)狀态傳達給可采取相應行動的人類”(Lin et al., 2022)。


第二,與其緻力于模型之大,不如專攻特定模型


鑒于LLMs不理解它們所處理的語言,也不理解所收到的提示和自己的回應,所以補救辦法一是靠規模的力量,即訓練數據和模型參數的巨大規模,二是靠專業的力量,即在爲特定行業或領域(如醫療保健和醫學(xué))定制開(kāi)發(fā)更專門的模型的情況下,有針對(duì)性地管策訓練數據,這(zhè)將(jiāng)有助于解決LLMs在涉及特定問題時的某些局限性。


想象一下,像ChatGPT這(zhè)樣(yàng)的LLM已經(jīng)在最好(hǎo)的醫學(xué)文獻上接受了訓練,但訓練數據當中也有讨論健康問題的Reddit線程。人工智能(néng)有時可以通過(guò)檢索和參考高質量的信息來回應,但其他時候它通過(guò)使用完全不可靠的Reddit信息來回應。事(shì)實上,假如醫學(xué)文獻中沒(méi)有這(zhè)些信息(例如一種(zhǒng)非常罕見的疾病),它更有可能(néng)編造這(zhè)些信息(此即人工智能(néng)行業常說的幻覺)。比爾·蓋茨(Bill Gates)曾預想過(guò),ChatGPT或類似的大型語言模型有一天可以爲沒(méi)有機會看醫生的人提供醫療建議(Trang, 2023),然而你如何能(néng)相信一個容易産生幻覺的機器的建議?


所以我們需要通過(guò)使用較小和較高質量的數據集對(duì)特定的知識領域進(jìn)行訓練。例如,擁有數十億參數的大型臨床語言模型可以利用電子健康記錄中的非結構化文本,幫助提取醫學(xué)概念和回答醫學(xué)問題,預測疾病或再入院風險,并總結臨床文本。而一個專門爲法律行業設計的模型可以接受法律術語和行話的訓練,使其更好(hǎo)地處理法律文件。


像BloombergGPT這(zhè)樣(yàng)的例子表明,紮根于特定領域的企業能(néng)夠使用免費提供的、現成(chéng)的人工智能(néng)方法,處理大量的專有數據。與OpenAI的GPT3/4這(zhè)樣(yàng)的“基礎性”模型不同,彭博社的模型是爲特定任務而設計的。它在公司多年來收集的大量金融文本上專門訓練,爲的是創建一個對(duì)金錢和商業能(néng)夠産生特别流利的認知的模型。在用于創建彭博社模型的數據中,約有一半來自網絡上的非金融來源,包括GitHub、YouTube字幕和維基百科。但彭博社還(hái)爲自己的模型添加了1000多億單詞,來自一個名爲FinPile的專有數據集,其中包括該公司在過(guò)去20年中積累的金融數據,内含證券文件、企業新聞發(fā)布、彭博社新聞報道(dào)、其他出版物的報道(dào),以及專注于金融網頁的網絡爬行等。事(shì)實證明,添加特定的培訓材料可以提高金融任務的準确性和性能(néng)。彭博社正計劃將(jiāng)其GPT整合到通過(guò)公司終端産品訪問的功能(néng)和服務中,盡管彭博社還(hái)未有計劃推出ChatGPT式聊天機器人(Leswing, 2023)。


第三,高質量的數據將(jiāng)成(chéng)爲LLM稱霸的新戰場


限制LLM持續改進(jìn)的最重要限制是可用的訓練數據量。《經(jīng)濟學(xué)人》報道(dào)說,2022年10月發(fā)表的一篇論文得出的結論是,“高質量語言數據的存量將(jiāng)很快耗盡,可能(néng)就在2026年之前”(The Economist, 2023)。肯定有更多可用的文本,但它們被(bèi)一小塊一小塊地鎖定在公司數據庫或個人設備上,無法以Common Crawl允許的規模和低成(chéng)本加以訪問。這(zhè)種(zhǒng)數據稀缺對(duì)LLM的進(jìn)一步發(fā)展提出了挑戰。


2023年4月18日,Reddit宣布,它將(jiāng)開(kāi)始對(duì)其API的訪問收費(Isaac, 2023)。這(zhè)一決定是在Twitter對(duì)其API實施類似限制之後(hòu)做出的(Mehta,2023)。近年來,Reddit的系列聊天成(chéng)爲谷歌、OpenAI和微軟等公司的免費教具。這(zhè)些公司使用Reddit的對(duì)話來幫助開(kāi)發(fā)巨型人工智能(néng)系統。然而現在,Reddit聯合創始人兼首席執行官史蒂夫·赫夫曼(Steve Huffman)稱:“我們不需要把所有這(zhè)些價值免費提供給世界上最大的一些公司。”


随即,程序員問答網站Stack Overflow也宣布將(jiāng)開(kāi)始對(duì)其 API收費。首席執行官普拉桑斯·錢德拉塞卡爾(Prashanth Chandrasekar)表示:“我們非常支持 Reddit 的做法”,“爲LLM提供動力的社區平台絕對(duì)應該因其貢獻而得到補償,這(zhè)樣(yàng)像我們這(zhè)樣(yàng)的公司就可以重新注資到社區,讓其繼續蓬勃發(fā)展。”(Dave,2023)


Reddit和Stack Overflow等平台爲微調LLM提供了快速訪問具體主題和問題的寶貴數據,而這(zhè)些平台的所有者正意識到它們所掌握的數據的價值。數據市場日益激烈的競争可能(néng)推動行業走向(xiàng)更少的共享和更多的貨币化。不幸的是,激進(jìn)的貨币化將(jiāng)進(jìn)一步增強能(néng)夠負擔API成(chéng)本的大型科技公司的能(néng)力。相應地,小型實驗室和資金緊張的初創公司將(jiāng)不得不處理手頭可用的低質量數據。


第四,開(kāi)源模型可以成(chéng)爲大科技公司封閉服務的替代品


最先進(jìn)的LLM需要巨大的計算預算和深厚的機器學(xué)習專業知識,所以很少有機構能(néng)夠從頭開(kāi)始訓練它們。然而,那些擁有資源和專業知識的機構越來越多地不開(kāi)放模型(無論是數據、源代碼或深度學(xué)習的秘方——模型權重)供公衆監督,而是依靠API分發(fā)。


這(zhè)就是開(kāi)源人工智能(néng)可以介入的地方,它使獲得LLM的機會民主化。各種(zhǒng)社區平台正在努力創建開(kāi)源的模型,以替代大科技公司提供的封閉的專有服務。這(zhè)些努力是爲了防止少數富有的公司在快速增長(cháng)的生成(chéng)式人工智能(néng)市場上擁有過(guò)多的權力。


例如,我們開(kāi)始看到Anthropic、Cohere和Character.ai等公司建立的LLMs更接近OpenAI的性能(néng)水平,它們在類似的數據集上訓練,并采用類似的模型架構。“穩定擴散”的例子表明,如果開(kāi)源模型的性能(néng)和社區支持達到了足夠的水平,那些封閉的大型模型未必能(néng)與其競争。


“穩定擴散”隻需較少的計算能(néng)力就可以工作。與在OpenAI強大的服務器上運行的DALL-E 2不同,穩定擴散可以在良好(hǎo)的個人電腦上運行。創造力的爆發(fā)和新應用程序的快速發(fā)展在很大程度上是由于“穩定擴散”:既是開(kāi)源的,程序員可以自由地改變它,在它的基礎上發(fā)展,并從中賺錢;又足夠輕巧,人們可以在家中運行。


谷歌的一位高級軟件工程師認爲,不管是OpenAI還(hái)是谷歌,在人工智能(néng)競賽中都(dōu)沒(méi)有勝算,構成(chéng)威脅的“第三派”將(jiāng)是開(kāi)源社區。開(kāi)源技術開(kāi)發(fā)者沒(méi)有所有權,他們將(jiāng)自己的作品發(fā)布給任何人,讓他們根據自己的需要使用、改進(jìn)或改編。開(kāi)源的曆史例子包括Linux操作系統和LibreOffice,這(zhè)是微軟Office的替代品。


這(zhè)位谷歌工程師說,開(kāi)源人工智能(néng)開(kāi)發(fā)者“已經(jīng)在搶占先機”,他舉出的例子包括Meta公司開(kāi)發(fā)的大型開(kāi)源語言模型LLaMA。2023年2月底發(fā)布的LLaMA因其優于GPT-3等模型的性能(néng)而立即受到歡迎,盡管其參數隻有650億(Meta AI, 2023)。7 月 18 日,LlaMa2發(fā)布包含了 70 億、130 億和 700 億參數的模型,它對(duì)于人工智能(néng)應用,就像安卓操作系統之于手機APP開(kāi)發(fā)一樣(yàng),目的就是讓應用層開(kāi)發(fā)者可以直接以最低成(chéng)本獲得大模型的基礎設施使用。有了這(zhè)樣(yàng)的模型,從事(shì)人工智能(néng)模型的門檻已經(jīng)“從某一個主要研究機構的總産出降至一個人、一個晚上和一台強大的筆記本電腦”。一個LLM現在可以在幾個小時内以100美元的價格進(jìn)行微調。憑借其快速移動、協作和低成(chéng)本的模式,開(kāi)源模型有一些谷歌或OpenAI無法複制的顯著優勢(Milmo, 2023)。而當免費的或低價的、不受限制的替代品在質量上與封閉的大型模式不相上下時,人們不會爲一個設限的人工智能(néng)模型付費。


當然,像任何事(shì)情一樣(yàng),這(zhè)同時具有積極和消極的影響。從正面(miàn)看,它使少數公司壟斷控制人工智能(néng)的可能(néng)性大大降低,也將(jiāng)使獲得人工智能(néng)的成(chéng)本大大降低,加速整個領域的創新,并使研究人員更容易分析人工智能(néng)系統的行爲(因其對(duì)專有模型的訪問是有限的),提高透明度和安全性。但是,更容易獲得人工智能(néng),也意味著(zhe)不良行爲者將(jiāng)可以出于自身的邪惡目的而對(duì)系統進(jìn)行微調,例如生産虛假信息。這(zhè)將(jiāng)使人工智能(néng)更難于監管,因爲精靈已經(jīng)逃出了瓶子。

大型語言模型的社會後(hòu)果

大型語言模型已經(jīng)徹底改變了我們與計算機互動的方式。它們能(néng)夠理解自然語言并對(duì)複雜的問題做出反應。随著(zhe)人工智能(néng)驅動的LLMs(如ChatGPT)的發(fā)展,它們已經(jīng)變得越來越有用并走向(xiàng)通用。


然而,它們的迅速進(jìn)展也不是沒(méi)有争議的。許多人擔心如此強大的技術所帶來的反響,憂慮這(zhè)些模型可能(néng)被(bèi)用來操縱信息或替代人類的經(jīng)驗。爲了充分了解它們的範圍和力量,探索LLMs如何影響社會的不同方面(miàn)非常重要。


鑒于這(zhè)些開(kāi)創性的模型的廣泛采用所帶來的巨大可能(néng)性和潛在風險,社會已經(jīng)對(duì)其使用産生了不同的反應。例如,在開(kāi)發(fā)和分發(fā)這(zhè)些模型的源代碼時,是采取開(kāi)源還(hái)是閉源方式?


總的來說,開(kāi)源是指任何人都(dōu)可以免費使用、修改和發(fā)布的源代碼,而閉源是指不能(néng)在創造它的機構之外修改或發(fā)布的專有代碼。在GPT-3之前,大多數大型語言模型都(dōu)是開(kāi)源的,但目前,越來越多的公司將(jiāng)他們的模型變成(chéng)閉源的,例如PaLM、LaMDA和GPT-4。在OpenAI宣布GPT-4模型的文件中,該公司說它不會提供關于架構、模型大小、硬件、訓練計算、數據構建或用于開(kāi)發(fā)GPT-4的訓練方法的細節,隻是指出它使用了從人類反饋中強化學(xué)習的方法,聲稱這(zhè)是由于競争和安全方面(miàn)的考慮(AI Now Institute, 2023)。


同樣(yàng),出于大型語言模型的競争格局和安全問題,OpenAI向(xiàng)客戶提供的付費訪問,也有許多法律和技術限制。這(zhè)使得學(xué)術研究人員更難進(jìn)行LLM訓練實驗。對(duì)研究界來說,最直接的問題之一是缺乏透明度。ChatGPT及其前身的基礎訓練集和LLMs是不公開(kāi)的,科技公司可能(néng)會隐瞞其對(duì)話式AI的内部運作。這(zhè)與透明度和開(kāi)放科學(xué)的趨勢背道(dào)而馳。在這(zhè)種(zhǒng)情況下,有關人工智能(néng)的模型能(néng)力的主張無法被(bèi)其他人驗證或複制,客戶也不可能(néng)下載ChatGPT背後(hòu)的模型。


相比之下,開(kāi)源工作涉及創建一個模型,然後(hòu)將(jiāng)其發(fā)布給任何人,讓他們根據自己的需要使用、改進(jìn)或改編。業界推動開(kāi)源LLM的工作,承諾多方合作和權力共享,而這(zhè)正是互聯網的最初理想。它顯示了不同的社區如何能(néng)夠相互幫助,攜手推進(jìn)大型語言模型的下一步發(fā)展。


圍繞著(zhe)LLMs的另一個關鍵問題是它們的倫理含義。随著(zhe)這(zhè)些系統變得越來越複雜,有關操縱人類行爲或公衆輿論的問題日益凸顯。此外,LLMs有可能(néng)被(bèi)用作惡意行爲者或組織獲取私人數據或傳播虛假信息的工具。出于對(duì)偏見和準确性的擔憂,人們也擔心它們在醫療診斷、法律決定甚至政府政策中的使用。


“深度僞造”(deepfake),由人工智能(néng)創造的圖像和視頻,已經(jīng)在媒體、娛樂和政治中出現了。在此之前,創造深度僞造的内容需要相當多的計算技能(néng),然而,現在幾乎任何人都(dōu)能(néng)創造它們。OpenAI已經(jīng)試圖通過(guò)在每張DALL-E 2的圖像上“打上水印”來控制虛假圖像,但未來可能(néng)需要更多的控制手段——特别是當生成(chéng)式視頻創作成(chéng)爲主流時。


生成(chéng)式人工智能(néng)還(hái)提出了許多有關何爲原創和專有内容的問題。由于創建的文本和圖像與以前的任何内容都(dōu)不完全一樣(yàng),AI系統供應商認爲人工智能(néng)生成(chéng)内容屬于提示的創造者。但它們顯然是用于訓練模型的先前文本和圖像的衍生品。不用說,類似技術將(jiāng)在未來幾年爲知識産權律師提供大量工作。


在隐私方面(miàn),LLMs本質上是個人化的,它收集大量的用戶數據,以便能(néng)夠有效地預測對(duì)話的長(cháng)度、主題和軌迹。此外,每次與 ChatGPT 這(zhè)樣(yàng)的工具的互動都(dōu)有一個唯一的标識符——有使用它的人的登錄軌迹。因此,個人對(duì) ChatGPT 的使用并非真正的匿名,這(zhè)就引發(fā)了有關 OpenAI 保留敏感數據的問題。圍繞著(zhe)數據的收集、存儲和使用,必須進(jìn)行一系列的深思熟慮,以便安全地使用LLMs。


LLMs與其他人工智能(néng)技術一樣(yàng)受到監管和合規框架的約束,但随著(zhe)它們變得越來越普遍,可能(néng)會提出新的問題:如何以符合《通用數據保護條例》(GDPR)和其他法規的方式使用此類工具。由于 ChatGPT 處理用戶數據以生成(chéng)響應,OpenAI 或者出于自身目的而依賴 ChatGPT 的實體可能(néng)被(bèi)視爲 GDPR 下的數據控制者,這(zhè)意味著(zhe)它們應該獲得處理用戶個人數據的合法依據(例如用戶的同意),并且必須告知用戶它們在從事(shì)何種(zhǒng)由ChatGPT支持的數據處理活動。


所有這(zhè)些潛在的問題強調了爲什麼(me)科學(xué)家、研究人員和其他使用LLMs的人或組織在將(jiāng)其投入實際使用之前,從多個角度積極審查大型語言模型的影響是至關重要的。如果深思熟慮地考量倫理方面(miàn)的影響,再加上嚴格的安全措施,大型語言模型就可以成(chéng)爲有價值的工具,而不會破壞用戶的信任或損害完整性。


此外,雖然大型語言模型的趨勢仍在繼續,但重要的是要注意,更大并不總是意味著(zhe)更好(hǎo)。大型語言模型可以很好(hǎo)地進(jìn)行随心所欲的創造性互動,但過(guò)去十年的發(fā)展告訴我們,大型深度學(xué)習模型是高度不可預測的,使模型更大、更複雜并不能(néng)解決這(zhè)個問題。


像ChatGPT這(zhè)樣(yàng)的大型語言模型,具有與用戶進(jìn)行類似語言交流的能(néng)力,有可能(néng)成(chéng)爲交流和教育以及其他許多領域的強大工具。然而,一方面(miàn)其對(duì)社會的影響是巨大的;另一方面(miàn)其被(bèi)濫用的可能(néng)性也是非常真實的。因此,需要更多的研究來認識大型語言模型的社會後(hòu)果及對(duì)我們生活的影響。随著(zhe)人工智能(néng)和數據科學(xué)越來越多地融入日常生活中,重要的是要加強這(zhè)類技術的倫理考量,并尊重我們的數據和隐私賦予我們的個人權利。該領域的領導者必須共同努力,确保大型語言模型的使用是負責任的,符合人類的最佳利益。

大型語言模型帶來的交流困境

ChatGPT和其他生成(chéng)式人工智能(néng)工具正在將(jiāng)有關大型語言模型的對(duì)話帶到公衆關注的最前沿,并且帶著(zhe)一種(zhǒng)前所未有的緊迫感。現在,人們必須就人工智能(néng)的未來是什麼(me)樣(yàng)子以及如何創造我們想要的未來進(jìn)行交流。

我們需要傳播理論、傳播研究和基于倫理的傳播實踐來關注和指導這(zhè)樣(yàng)的對(duì)話。數字人文學(xué)者馬修·科申鮑姆(Matthew Kirschenbaum)預測,即將(jiāng)到來的“文本末日”將(jiāng)導緻“文本海嘯”,“在任何數字環境中都(dōu)無法可靠地進(jìn)行交流”(Kirschenbaum, 2023)。

科申鮑姆所稱的“文本末日”是指,我們與書面(miàn)文字的關系正在發(fā)生根本性的變化。通過(guò)ChatGPT等程序,所謂的生成(chéng)式人工智能(néng)已經(jīng)成(chéng)爲主流,這(zhè)些程序使用大型語言模型來統計預測序列中的下一個字母或單詞,從而生成(chéng)模仿其所訓練的文本内容的句子和段落。它們爲整個互聯網帶來了類似自動完成(chéng)(autocomplete)的功能(néng)。

目前,人們仍然在爲這(zhè)些程序輸入實際的提示信息,同樣(yàng),這(zhè)些模型(大部分)仍然是根據人類散文而不是機器自制的作品進(jìn)行訓練的。但情況可能(néng)會發(fā)生變化——OpenAI發(fā)布ChatGPT應用程序接口就證明了這(zhè)一點,它將(jiāng)允許該技術直接集成(chéng)到社交媒體和在線購物等網絡應用中(Wiggers,2023)。不難想象,在這(zhè)種(zhǒng)情況下,機器可以促使其他機器無休止地發(fā)布文本,從而使互聯網充斥著(zhe)沒(méi)有人類的能(néng)動性或意圖的合成(chéng)文本。

2022年6月3日,人工智能(néng)研究者兼YouTuber揚尼克·基爾徹(Yannic Kilcher)發(fā)布了一段視頻,介紹他如何開(kāi)發(fā)名爲“GPT-4chan”的人工智能(néng)模型,然後(hòu)部署機器人在著名留言闆4chan上僞裝成(chéng)人類。4chan常被(bèi)描述爲互聯網亞文化的中心,其社區對(duì)知名互聯網模型的形成(chéng)和普及以及黑客行動和政治運動具有相當大的影響力。4chan經(jīng)常作爲争議來源而受到媒體關注,包括協調組織針對(duì)某些網站和用戶的惡作劇和騷擾,以及發(fā)布非法和攻擊性内容。

GPT-4chan是一個大型語言模型,通過(guò)使用之前公開(kāi)發(fā)布的數據集對(duì)GPT-J進(jìn)行微調來模拟4chan的/pol/匿名留言闆用戶而創建;其中許多用戶經(jīng)常表達種(zhǒng)族主義、白人至上主義、反猶主義、反穆斯林、厭惡女性和反 LGBT的觀點。基爾徹訓練機器人閱讀了4Chan這(zhè)一臭名昭著的“政治不正确”闆塊3年半時間内的1.345億條帖子,很自然地,該模型學(xué)會了輸出各種(zhǒng)仇恨言論,導緻基爾徹稱其爲“互聯網上最可怕的模型”,并在他的視頻中這(zhè)樣(yàng)說道(dào):“這(zhè)個模型很好(hǎo),但從一個可怕的意義上來說……它完美概括了/pol/上大多數帖子中滲透的攻擊性、虛無主義、惡搞以及對(duì)任何信息的深度不信任。”(Kilcher, 2022)

在訓練完成(chéng)後(hòu),由該模型驅動的10個機器人被(bèi)部署在/pol/留言闆上,24小時内匿名發(fā)布了1.5萬條基本上是有毒的信息。雖說許多用戶通過(guò)留言闆上的發(fā)帖頻率很快認定這(zhè)是一個機器人,而基爾徹也公布了在服務器上運行模型所需的代碼和已訓練的模型實例,并表示人工智能(néng)研究人員可以聯系他獲取機器人與4chan用戶的互動記錄,可是他的做法還(hái)是在人工智能(néng)研究者社區内引發(fā)了較大争議。

GPT-4chan模型發(fā)布在Hugging Face上,這(zhè)是一個共享經(jīng)過(guò)訓練的AI模型的中心。在該模型被(bèi)下載了1000餘次後(hòu),Hugging Space團隊首先“限制”了對(duì)它的訪問,此後(hòu)不久,他們又完全删除了對(duì)它的訪問權限,其頁面(miàn)現在刊有以下免責聲明:“已禁用對(duì)該模型的訪問——鑒于其研究範圍,在所有禁止使用機器人的網站上故意使用該模型生成(chéng)有害内容(不完全示例包括:仇恨言論、垃圾郵件生成(chéng)、假新聞、騷擾和辱罵、貶低和诽謗)被(bèi)視爲對(duì)該模型的濫用。”(Kurenkov, 2022)

在人工智能(néng)研究界,有人認爲這(zhè)樣(yàng)的模型很可能(néng)造成(chéng)傷害,特别是在面(miàn)向(xiàng)青少年的論壇中。讓機器人與 4chan 用戶互動是不道(dào)德的,它加劇了4chan本已有毒的回聲室效應并進(jìn)一步分化了用戶群。阿德萊德大學(xué)的人工智能(néng)安全研究員勞倫·奧克登-雷納(Lauren Oakden-Rayner)在一條推文中指責基爾徹“在未告知用戶、未經(jīng)同意或監督的情況下進(jìn)行人類實驗”,她認爲這(zhè)違反了人類研究倫理的所有原則(Mellor, 2022)。

基爾徹在接受The Verge采訪時將(jiāng)該項目描述爲一個“惡作劇”,他認爲考慮到 4chan本身的性質,這(zhè)種(zhǒng)惡作劇幾乎沒(méi)有造成(chéng)什麼(me)有害影響。“/pol/上完全可以預料到會有機器人和非常粗魯的言談”(Vincent, 2022)。并且,任何潛在的危害也可以使用其他現有模型來實現。

的确,基爾徹不會是第一個、也不是唯一一個創建惡意的微調模型的人。所以,問題在于,如果出現更多的微調模型,其内容指向(xiàng)在意識形态層面(miàn)複制一種(zhǒng)特定世界觀,會爲未來的人類交流帶來什麼(me)?

基爾徹創建的機器人非常逼真。“它能(néng)對(duì)上下文做出反應,并能(néng)連貫地講述在收集最後(hòu)一次訓練數據很久之後(hòu)發(fā)生的事(shì)情和事(shì)件”,基爾徹在視頻中稱。以此類推,有人可以建立一個系統,讓ChatGPT這(zhè)樣(yàng)的程序反複向(xiàng)自己提問,并自動將(jiāng)輸出結果發(fā)布到網站或社交媒體上。這(zhè)樣(yàng)無休止地叠代内容流,除了在交流場域造成(chéng)混亂,它還(hái)將(jiāng)被(bèi)再次吸入大型語言模型的訓練集,讓模型在互聯網上制造自己的新内容。如果各路人馬——無論是出于廣告收入、政治或意識形态目的還(hái)是惡作劇——都(dōu)開(kāi)始這(zhè)樣(yàng)做,每天難以數計的類似帖子充斥在開(kāi)放的互聯網上,與搜索結果混雜在一起(qǐ),在社交媒體平台上傳播,滲透到維基百科詞條中,尤其是爲未來的機器學(xué)習系統提供素材,那將(jiāng)會怎樣(yàng)?

將(jiāng)基爾徹的工作與過(guò)去最著名的變壞了的機器人的例子相比較是非常有趣的:微軟的Tay。微軟于2016年在 Twitter上發(fā)布了人工智能(néng)聊天機器人,但在用戶教導Tay重複各種(zhǒng)種(zhǒng)族主義和煽動性言論後(hòu),不到24小時,微軟就被(bèi)迫下線該項目(Vincent, 2016)。可 是在那時,創建這(zhè)樣(yàng)的機器人專屬于大型科技公司的領域,基爾徹現在的做法表明,任何一人編碼團隊都(dōu)可以使用更先進(jìn)的人工智能(néng)工具達成(chéng)同樣(yàng)的結果。至于說到人類研究倫理的指責,如果基爾徹在大學(xué)工作,讓AI機器人在 4chan上自由活動可能(néng)是不道(dào)德的。但基爾徹堅稱自己隻是一名YouTuber,這(zhè)暗示著(zhe)他認爲此處适用不同的倫理規則。

面(miàn)對(duì)如此嚴峻的局面(miàn),我們該如何應對(duì)?筆者認爲,傳播學(xué)可以發(fā)揮作用的領域包括:

讓開(kāi)發(fā)者對(duì)人工智能(néng)偏見負責。像希瑟·伍茲(Heather S. Woods)和泰勒·莫蘭(Taylor C. Moran)這(zhè)樣(yàng)的傳播研究者已經(jīng)發(fā)表了關于人工智能(néng)虛拟助手(如Siri和Alexa)與性别和種(zhǒng)族刻闆印象的重要研究成(chéng)果,顯示了人工智能(néng)是如何反映并重新定義人類偏見和價值觀的(Woods, 2018;Moran, 2021)。随著(zhe)生成(chéng)式人工智能(néng)和新應用的引入,這(zhè)一領域還(hái)需要更多的研究。研究的目的是喚醒公衆去追究那些生産強化此類偏見的人工智能(néng)軟件組織的責任。

具體就大型語言模型而言,一件重要的事(shì)情是幫助制訂發(fā)布“基礎性”模型的社區規範。斯坦福以人爲本人工智能(néng)研究院(HAI,Human-Centered AI Institute)和基礎模型研究中心(CRFM, Center for Research on Foundation Models)就提出,随著(zhe)基礎模型變得更加強大和普遍,負責任發(fā)布的問題變得至關重要(Liang, 2022)。而“發(fā)布”一詞本身就有不同的内涵:首先是研究訪問,即基礎模型開(kāi)發(fā)者令外部研究人員可以訪問數據、代碼和模型等資産;而部署到用戶中開(kāi)展測試和收集反饋,以及以産品形式部署到最終用戶中,則構成(chéng)了更深入的發(fā)布形式。

随著(zhe)AI技術變得越來越強大,每個基礎模型開(kāi)發(fā)者獨立決定其發(fā)布政策的問題凸顯出來。原因有二:首先,單個行爲者發(fā)布不安全、功能(néng)強大的技術可能(néng)會對(duì)個人和社會造成(chéng)重大傷害。即便認爲當今基礎模型的風險還(hái)沒(méi)有嚴重到有理由限制相對(duì)開(kāi)放的發(fā)布,然而迅猛的發(fā)展速度也給未來模型的能(néng)力帶來了相當大的不确定性。其次,正因爲基礎模型風險的嚴重性尚不明确,基礎模型開(kāi)發(fā)者將(jiāng)從分享最佳實踐中獲益,而無需每個組織都(dōu)“重新發(fā)明輪子”,承擔重新發(fā)現某些危害的經(jīng)濟和社會成(chéng)本。此外,加強合作和提高透明度可以解決集體行動問題,即由于快速行動的強烈經(jīng)濟動機,各組織通常對(duì)負責任的人工智能(néng)投資不足(Askell et al,2019;胡泳,朱政德,2023)。底線就是,需要社區規範來管理基礎模型的發(fā)布。在向(xiàng)公衆發(fā)布人工智能(néng)代碼或模型時,既要考慮這(zhè)樣(yàng)做的直接影響,也要考慮其他人使用這(zhè)些代碼或模型可能(néng)産生的下遊影響。

完善把關機制,限制訪問或移除可能(néng)有害的模型和數據集。随著(zhe)AI逐漸成(chéng)爲各類信息和知識的把關人,爲AI系統設置把關人成(chéng)爲迫切需要。例如,基爾徹使用的數據集過(guò)去和現在都(dōu)是公開(kāi)的,任何人都(dōu)可以下載,因此可以想象,擁有人工智能(néng)技術的人有可能(néng)會用它來創建一個以傳播仇恨言論爲目的的機器人。一旦這(zhè)樣(yàng)的機器人公開(kāi)發(fā)布,像本文中提到的Hugging Face拔掉下載插頭的把關行爲就是值得稱許的。

2020年7月,麻省理工學(xué)院下線了一個龐大且被(bèi)高度引用的數據集,因爲兩(liǎng)名研究人員發(fā)現該數據集使用種(zhǒng)族主義和厭惡女性的術語來描述黑人/亞洲人和女性的圖像。這(zhè)一名爲“8000萬張小圖像”(80 Million Tiny Images)的訓練集是在2008年創建的,目的是開(kāi)發(fā)先進(jìn)的物體檢測技術。它被(bèi)用來教授機器學(xué)習模型識别靜态圖像中的人和物體(Quach, 2020)。在技術新聞網站The Register向(xiàng)大學(xué)發(fā)出警報後(hòu),麻省理工學(xué)院删除了數據集,并敦促研究人員和開(kāi)發(fā)人員停止使用該訓練庫,并删除所有副本。大學(xué)還(hái)在其網站上發(fā)表了官方聲明并道(dào)歉(Ustik, 2020)。

這(zhè)種(zhǒng)道(dào)德上可疑的數據集所造成(chéng)的損害遠遠超出了不良品位;該數據集被(bèi)輸入神經(jīng)網絡,教導它們將(jiāng)圖像與單詞關聯起(qǐ)來。這(zhè)意味著(zhe)任何使用此類數據集的人工智能(néng)模型都(dōu)在學(xué)習種(zhǒng)族主義和性别歧視,而這(zhè)可能(néng)會導緻帶有性别歧視或種(zhǒng)族主義的聊天機器人、存在種(zhǒng)族偏見的軟件,甚至更糟的社會後(hòu)果,比如警方使用人臉識别系統誤認某人,并因其未曾犯下的罪行而實施逮捕(Hill, 2020)。

部分問題在于數據集是如何構建的。“8000萬張小圖像”包含2006年根據 WordNet(一個用于計算語言學(xué)和自然語言處理的英語單詞數據庫)的查詢從互聯網上抓取的 7930.2017 萬張圖像。據創建者介紹,他們直接從WordNet複制了 5.3萬多個名詞,然後(hòu)自動從各個搜索引擎下載與這(zhè)些名詞相對(duì)應的圖像。由于WordNet包含貶義術語,用戶最終會得到無意中證實和強化刻闆印象及有害偏見的結果(Song, 2020;Kurenkov, 2022)。

另一個有問題的數據集是ImageNet。ImageNet是一個大型視覺數據庫,用于視覺對(duì)象識别軟件研究。2019年,在一個名爲ImageNet Roulette的藝術項目顯示數據集當中存在系統性偏見後(hòu),ImageNet也從其系統中删除了60萬張照片。不出所料,ImageNet也是基于WordNet構建的(Ruiz, 2019)。這(zhè)表明了對(duì)數據集實施把關的必要性,如果不加以控制,它將(jiāng)繼續産生有偏見的算法,并爲使用它作爲訓練集的人工智能(néng)模型帶來偏見。就像計算機科學(xué)領域的一句著名習語所說的:垃圾進(jìn),垃圾出。

把關機制既包括Hugging Face這(zhè)樣(yàng)的神經(jīng)語言編程代碼共享平台,也包括麻省理工學(xué)院這(zhè)樣(yàng)的精英大學(xué),同時也需要The Register這(zhè)樣(yàng)的技術媒體進(jìn)行社會監督。人工智能(néng)研究社區也要著(zhe)力培養包容性文化,建立更符合倫理的數據集,并規範自身的程序。例如,避免使用知識共享(Creative Commons)材料,獲得明确的數據采集同意,并在數據集中加入審計卡(audit card),允許數據集的管理者公布目标、管理程序、已知缺陷和注意事(shì)項。

一個例證是,模型發(fā)布時應包含有關模型文檔的模型卡(model card),它是記錄已發(fā)布的人工智能(néng)模型的預期用途和局限性的好(hǎo)方法,比如GPT-4chan的模型卡就明确指出了它的仇恨言論傾向(xiàng),并警告不要部署它。

重新思考内容的生産與傳播。威廉·薩菲爾(William Safire)是20 世紀90年代末最早斷言“内容”(content)將(jiāng)作爲獨特的互聯網類别而興起(qǐ)的人之一(Safire,1998),或許也是第一個指出内容無需與真實性或準确性相關即可實現其基本功能(néng)的人。這(zhè)一基本功能(néng),簡單來說,就是存在;或者,如凱特·艾希霍恩(Kate Eichhorn)所指出的,内容可以不傳遞任何信息或知識,隻是爲了流通而流通(Eichhorn, 2022)。

從ICP時代以來,内容就被(bèi)放置于社會文化和經(jīng)濟發(fā)展中至關重要的位置,在經(jīng)曆了PGC、UGC、PUGC這(zhè)些不同内容模式和内容經(jīng)濟之後(hòu),内容已經(jīng)成(chéng)爲人們日常生活審美化、藝術化、商品化的重要組成(chéng)部分。然而在如今風起(qǐ)雲湧的AIGC浪潮中,主體和曆史雙雙迎來了史無前例的危機,因爲這(zhè)場生成(chéng)式革命選擇將(jiāng)人類更深層次的編碼能(néng)力和思維鏈能(néng)力通過(guò)訓練交付給機器(胡泳,劉純懿,2023)。當代文化産業的規範正在朝著(zhe)書面(miàn)語言的自動化和算法優化方向(xiàng)發(fā)展。大量生産低質量文章以吸引廣告的内容農場使用了這(zhè)些工具,但它們仍然依賴大量的人力將(jiāng)字符串成(chéng)适當的單詞,將(jiāng)單詞串成(chéng)清晰的句子,將(jiāng)句子串成(chéng)連貫的段落。一旦自動化和擴大勞動規模成(chéng)爲可能(néng),會出現什麼(me)動力來控制這(zhè)種(zhǒng)生産呢?

長(cháng)期以來,内容的基本範式一直是所謂“讀寫網”(read-write web)。我們不僅消費内容,還(hái)可以生産内容,通過(guò)編輯、評論和上傳參與網絡的創建。然而我們現在正處于一種(zhǒng)“自書寫網絡”(write-write web)的邊緣:網絡不斷地書寫和重寫自身。畢竟,ChatGPT及其同類工具可以像寫文章一樣(yàng)輕松地編寫代碼。

從本質上來說,我們將(jiāng)面(miàn)臨一場永無止盡的信息垃圾危機,由一種(zhǒng)人類和機器作者的脆弱融合體加以催生。從芬·布朗頓(Finn Brunton)的《信息垃圾:互聯網的影子曆史》(Spam:A Shadow History of the Internet,2013)一書中,我們可以了解在互聯網上傳播虛假内容的五花八門的方法。例如“雙面(miàn)”網站,即爲人類讀者設計的網頁和爲搜索引擎中的機器人爬蟲優化的網頁同時并存;搭建整個由自主内容填充的博客網,以驅動鏈接和流量;“算法新聞”,通過(guò)網絡發(fā)布自動報道(dào);當然還(hái)有在2016年美國(guó)大選和英國(guó)脫歐期間聲名鵲起(qǐ)的僵屍網(botnet)(Brunton, 2013)。形形色色、具有威脅性的信息垃圾告訴我們,網絡的自我書寫已經(jīng)持續一段時間了。今天,随著(zhe)生成(chéng)式人工智能(néng)開(kāi)始占據主導地位,可以預計,機器生産的文本將(jiāng)堵塞服務器、通信電纜和數據中心。

内容生産與傳播的新亂象爲傳播學(xué)帶來了大量富于挑戰的課題:比如用戶生成(chéng)内容與有報酬(盡管常常報酬不足)的工人制作的内容的區别;全球底層社會中的隐形工人,他們讓人工智能(néng)看起(qǐ)來很“聰明”,然而自身卻是受技術負面(miàn)影響最大的邊緣化群體;從藝術和文學(xué)到新聞和政治,這(zhè)些領域如何經(jīng)受AIGC内容産業崛起(qǐ)的考驗;是否存在某種(zhǒng)“内容資本”,即藝術家、作家和表演者制作内容的能(néng)力,并不關乎他們的作品,而是和他們作爲創造者的地位息息相關?

解決人工智能(néng)和傳播的職業問題。喬舒亞·裡(lǐ)夫斯(Joshua Reeves)寫道(dào):“面(miàn)對(duì)機器冷冰冰的效率,人類似乎隻是潛在錯誤的有機集合。”(Reeves, 2016)OpenAI的研究預測,“80%的美國(guó)勞動力可能(néng)至少有10%的工作任務會受到LLM的影響”。更糟糕的是,“19%的工作者可能(néng)會看到至少50%的工作任務受到影響”(Eloundou et al, 2023)。公共關系專業人士、文案撰稿人、平面(miàn)設計師、社交媒體營銷人員——這(zhè)些都(dōu)是本科主修傳播學(xué)的人的常見職業,也都(dōu)可能(néng)受到快速生成(chéng)文本和圖像的生成(chéng)式人工智能(néng)的威脅。傳播學(xué)需要研究如何在各種(zhǒng)傳播工作環境中合乎倫理地使用人工智能(néng)工具,也需要通過(guò)專業主義的倡導來保護這(zhè)些職業。

在研究、交流中和課堂上提升人工智能(néng)素養。奧特姆·愛德華茲(Autumn Edwards)和查德·愛德華茲(Chad Edwards)等傳播教育研究者試圖展示人工智能(néng)如何改變傳播教學(xué)的本質(Edwards, Edwards, 2017)。此外,ChatGPT帶來的有關考核方式和學(xué)術不誠實的大量讨論爲傳播學(xué)學(xué)者提供了一個機會,調查和挑戰我們對(duì)教學(xué)和學(xué)習的假設。我們還(hái)應該借鑒傳播學(xué)研究中將(jiāng)新媒體技術融入課堂的悠久曆史,确定在哪些實踐中使用人工智能(néng)將(jiāng)有利于促進(jìn)學(xué)生學(xué)習和提高教學(xué)質量。此外,就像社交媒體和假新聞的興起(qǐ)要求發(fā)展更好(hǎo)的媒介素養一樣(yàng),ChatGPT等工具要求人工智能(néng)素養的培育,傳播學(xué)在這(zhè)方面(miàn)責無旁貸。需要大力開(kāi)展科學(xué)傳播,動員人工智能(néng)社區中更多的研究人員扮演AI傳播者的角色,讓更多的公衆了解AI技術的能(néng)力和局限性。

最終,回到傳播學(xué)研究本身,是否需要對(duì)傳播學(xué)進(jìn)行重新定位和重新概念化,以适應日益智能(néng)的機器、自主決策系統和智能(néng)設備帶來的機遇和挑戰?從曆史上看,傳播學(xué)通過(guò)將(jiāng)創新性突破轉化爲人類互動和信息交換的媒介來适應新技術。随著(zhe)計算機的發(fā)展,20世紀下半葉出現了以計算機爲媒介的交流(CMC)。在CMC研究中,計算機被(bèi)理解爲或多或少中立的訊息傳輸渠道(dào)和人類交互工具。這(zhè)種(zhǒng)形式化忽略了這(zhè)樣(yàng)一個事(shì)實:與以前的技術進(jìn)步不同,計算機在今天開(kāi)始占據交流交換參與者的地位。人工智能(néng)科學(xué)中已經(jīng)存在不少這(zhè)方面(miàn)的證據,所以,我們也許要問:CMC 範式雖然具有不可否認的影響力,但是否存在重大不足,甚至不再站得住腳?相應地,傳播學(xué)是否需要重新設計基本框架,以應對(duì)獨特的技術挑戰及社會機遇?現在是傳播學(xué)認真對(duì)待這(zhè)些關鍵問題的時候了。

盡管人工智能(néng)有效地挑戰了當前的範式,將(jiāng)其正常功能(néng)置于某種(zhǒng)危機之中,但構成(chéng)新範式的内容現在才剛剛開(kāi)始出現。按照科學(xué)史的發(fā)展邏輯,這(zhè)些創新可能(néng)需要相當長(cháng)的一段時間,才能(néng)被(bèi)定型并編入下一次被(bèi)視爲“正常科學(xué)”的叠代中。然而,在當前這(zhè)個初步階段,我們可以開(kāi)始确定,随著(zhe)人工智能(néng)技術的進(jìn)展,下一代傳播研究可能(néng)會是什麼(me)樣(yàng)子。

(胡泳:《超越ChatGPT:大型語言模型的力量與人類交流的困境》,2023年第8期,微信發(fā)布系節選,學(xué)術引用請務必參考原文)