算法背后:平臺(tái)和用戶相互影響。
文丨孫海寧
編輯丨高洪浩
內(nèi)容平臺(tái)天生面臨一個(gè)矛盾:推薦算法太透明,不但暴露商業(yè)機(jī)密,還容易鼓勵(lì)創(chuàng)作者和商家針對(duì)優(yōu)化特定數(shù)據(jù)搏流量;推薦算法不透明,每當(dāng)攪動(dòng)社會(huì)情緒的事件出現(xiàn),用戶總會(huì)懷疑內(nèi)容平臺(tái)在操控信息流動(dòng)。
抖音是國(guó)內(nèi)最大的內(nèi)容平臺(tái)之一,相應(yīng)也受到最猛烈的批評(píng)。去年11月,知名企業(yè)家鐘睒睒公開指責(zé)抖音放縱造謠賬號(hào)抹黑企業(yè)形象,引發(fā)共鳴;近期,北京大學(xué)青年教師韋東奕在抖音開通賬號(hào),迅速獲得超千萬(wàn)名粉絲,又有用戶指責(zé)抖音“造神”。
同期,中國(guó)監(jiān)管部門也發(fā)起針對(duì)互聯(lián)網(wǎng)平臺(tái)的治理行動(dòng),把“以適當(dāng)方式公示算法推薦服務(wù)的基本原理、目的意圖、主要運(yùn)行機(jī)制等”作為工作目標(biāo)。
今年年初開始,抖音成立算法透明項(xiàng)目組,首次對(duì)外解釋推薦算法的原理、治理內(nèi)容生態(tài)的思路。《晚點(diǎn)LatePost》訪談了抖音算法、生態(tài)治理相關(guān)負(fù)責(zé)人,了解這家公司如何影響用戶、又如何被用戶影響。
推薦算法學(xué)習(xí)用戶行為規(guī)律
用戶點(diǎn)擊手機(jī)上的音符圖標(biāo),打開應(yīng)用的幾秒內(nèi),抖音推薦算法已經(jīng)在每天增加數(shù)億個(gè)視頻的內(nèi)容庫(kù)中,完成推薦運(yùn)算,再根據(jù)運(yùn)算結(jié)果排序。大邏輯不復(fù)雜:
先分別估計(jì)視頻引起用戶某個(gè)行為——點(diǎn)贊、評(píng)論、進(jìn)入直播間等等——的概率,再用事先確定的行為價(jià)值分?jǐn)?shù)和行為概率相乘,然后加總。最終得分越高,視頻就越可能被刷出。
預(yù)測(cè)行為概率是靠歷史數(shù)據(jù)。過(guò)往視頻激發(fā)了哪些行為,以及這些視頻、視頻觀眾的特征,會(huì)源源不斷地匯入機(jī)器學(xué)習(xí)模型,就像帶有標(biāo)準(zhǔn)答案的樣題,供模型學(xué)習(xí)。理想情況下,每迭代一次,模型預(yù)測(cè)行為概率時(shí)就估得更準(zhǔn)。
“模型本質(zhì)是在學(xué)某類人對(duì)某類視頻發(fā)生特定行為的規(guī)律?!倍兑羲惴üこ處焺痴f(shuō),“如果模型判斷你我興趣相近,之前我點(diǎn)贊某個(gè)歷史視頻,那模型可能估計(jì)你也容易為它點(diǎn)贊。”
平臺(tái)能獲取到的各類信息可能都有助于提高模型預(yù)測(cè)的準(zhǔn)確度。為增加模型可用信息,抖音有時(shí)還會(huì)重新設(shè)計(jì)用戶界面。2021年之前,為求首面板簡(jiǎn)潔干凈,用戶只有長(zhǎng)按屏幕或者點(diǎn)擊分享之后,才能在二級(jí)面板內(nèi)收藏視頻。但在推薦團(tuán)隊(duì)嘗試提升中、長(zhǎng)視頻的分發(fā)效率后,意識(shí)到“用戶收藏”是反映視頻質(zhì)量的重要信號(hào),因此將收藏按鈕提至首面板,方便收集更多收藏?cái)?shù)據(jù)。
模型估出用戶各項(xiàng)行為概率后,還要乘以預(yù)先確定的價(jià)值分。價(jià)值分越高,意味著某項(xiàng)行為越被平臺(tái)鼓勵(lì)。相比目標(biāo)是提高客觀預(yù)測(cè)精度的行為概率模型,價(jià)值分更體現(xiàn)平臺(tái)主觀偏好,設(shè)定不好,就可能大幅影響平臺(tái)生態(tài)。
抖音確定行為價(jià)值分是靠A/B測(cè)試:微調(diào)一組用戶推薦算法的價(jià)值分,再和另一組沒(méi)調(diào)整的用戶對(duì)照,觀察平臺(tái)重視的各項(xiàng)指標(biāo)如何變化。這些指標(biāo)可以是日活躍用戶數(shù)量、創(chuàng)作者投稿數(shù)量、平臺(tái)商品銷售額等。
多個(gè)指標(biāo)可能同時(shí)朝不同方向變動(dòng)。這時(shí)抖音數(shù)據(jù)分析團(tuán)隊(duì)會(huì)在各個(gè)指標(biāo)之間創(chuàng)建換算關(guān)系,并約束它們對(duì)最重要的“北極星”指標(biāo)——長(zhǎng)期留存——的影響。
觀察上述指標(biāo)變化,抖音可以判斷業(yè)務(wù)團(tuán)隊(duì)是否像自己聲稱地那樣完成任務(wù)。比如抖音電商定位“興趣電商”,目標(biāo)是推薦用戶需要的商品?!昂饬客扑]精度的電商轉(zhuǎn)化率提高,就不能把衡量用戶體驗(yàn)的活躍度指標(biāo)拉下去?!眲痴f(shuō)。
用戶使用抖音的習(xí)慣不同,同一行為暗含的信息量也就不同。熱衷點(diǎn)贊的用戶可能不放過(guò)每次鼓勵(lì)創(chuàng)作者的機(jī)會(huì),無(wú)論視頻質(zhì)量?jī)?yōu)劣;要求更高的用戶則只會(huì)對(duì)自認(rèn)為最高質(zhì)量的內(nèi)容點(diǎn)贊。顯然,后一種點(diǎn)贊顯出視頻對(duì)用戶的價(jià)值更高,價(jià)值分應(yīng)該隨之調(diào)整。
為此,抖音允許價(jià)值分在平臺(tái)預(yù)設(shè)的基礎(chǔ)上千人千面地變化,同時(shí)也會(huì)針對(duì)有特定觀看習(xí)慣的用戶設(shè)計(jì)特定策略,由此保證價(jià)值分反應(yīng)用戶偏好。
抖音會(huì)控制價(jià)值分個(gè)性化,或者針對(duì)特定行為策略的復(fù)雜程度。劉暢說(shuō)這一方面是出于成本考慮,多一個(gè)模型動(dòng)態(tài)調(diào)整價(jià)值分,算力成本就被堆得更高。另外,推薦系統(tǒng)需要控制復(fù)雜度,增強(qiáng)算法魯棒性——讓系統(tǒng)面對(duì)各種干擾時(shí)仍保持穩(wěn)定運(yùn)轉(zhuǎn)。
先人工定調(diào),再機(jī)器放大
推薦算法并非萬(wàn)能。它只是根據(jù)用戶可能“點(diǎn)贊、評(píng)論、分享”的概率,加上平臺(tái)給這些動(dòng)作設(shè)定的權(quán)重,為內(nèi)容排序,看不出視頻本身是否優(yōu)質(zhì)。維護(hù)內(nèi)容生態(tài),先得由平臺(tái)員工確定內(nèi)容評(píng)判標(biāo)準(zhǔn)后,推薦算法才能批量執(zhí)行。
抖音內(nèi)容運(yùn)營(yíng)負(fù)責(zé)人李翔宇告訴《晚點(diǎn)LatePost》,2023年開始,抖音運(yùn)營(yíng)部門更重視增加優(yōu)質(zhì)內(nèi)容占比。
新工作從定義何為“優(yōu)質(zhì)供給”開始。運(yùn)營(yíng)員工人工初篩出各個(gè)內(nèi)容類目的優(yōu)質(zhì)視頻,然后定期開會(huì)二次篩選、討論,提煉出這些視頻的特點(diǎn),形成可以被文字闡釋的標(biāo)準(zhǔn)。
“我們會(huì)請(qǐng)創(chuàng)作者幫忙一起研判,一些觀看次數(shù)不高、可我們覺得是優(yōu)質(zhì)的內(nèi)容會(huì)發(fā)給創(chuàng)作者,請(qǐng)他們從專業(yè)視角評(píng)判?!崩钕栌钫f(shuō)。過(guò)程中,播放量高但沒(méi)有創(chuàng)意的視頻也會(huì)被拿出來(lái)討論,“比如賣弄技巧,但沒(méi)有信息量的視頻。”
優(yōu)質(zhì)標(biāo)準(zhǔn)是動(dòng)態(tài)調(diào)整的?!岸兑魟偵暇€時(shí),運(yùn)鏡視頻肯定屬于優(yōu)質(zhì)內(nèi)容。但發(fā)的人越來(lái)越多,觀眾審美疲勞,創(chuàng)作者就需要在運(yùn)鏡基礎(chǔ)上增加更多創(chuàng)新玩法?!崩钕栌钫f(shuō)。
標(biāo)準(zhǔn)制定好,更多內(nèi)容運(yùn)營(yíng)和審核員工就能參考它們,為更多內(nèi)容打上“優(yōu)質(zhì)視頻/非優(yōu)質(zhì)視頻”的標(biāo)簽。這之后,有了學(xué)習(xí)樣本的算法開始發(fā)揮效力,批量識(shí)別出還沒(méi)經(jīng)過(guò)人工評(píng)判的優(yōu)質(zhì)視頻。
“算法的優(yōu)勢(shì)在于批量處理。畢竟運(yùn)營(yíng)員工能研判的視頻數(shù)量是有限的,算法可以將更多優(yōu)質(zhì)創(chuàng)作者和優(yōu)質(zhì)視頻更早地發(fā)掘出來(lái)?!崩钕栌钫f(shuō)。
就像所有內(nèi)容平臺(tái),抖音會(huì)對(duì)優(yōu)質(zhì)視頻提供流量激勵(lì)。之前的方式是保證它們獲得一定播放量,但效果有限?!氨热缰小㈤L(zhǎng)知識(shí)類視頻,用保證一定播放量的方式幫它們完成冷啟動(dòng),之后完播率還是天生不如10秒短視頻,得不到算法重視。”李翔宇說(shuō)。
新辦法是在定義優(yōu)質(zhì)內(nèi)容后,看哪些用戶行為和行為價(jià)值分可以讓流量導(dǎo)向優(yōu)質(zhì)內(nèi)容,抖音就強(qiáng)化這些目標(biāo),如收藏、反復(fù)觀看、搜索等。去年,一條450分講紅樓夢(mèng)的視頻獲得3億播放、780萬(wàn)收藏、637萬(wàn)分享,大量用戶的收藏和分享,讓這條長(zhǎng)視頻得到更好的分發(fā),被抖音當(dāng)作算法和用戶雙向選擇的最佳實(shí)踐。
提振優(yōu)質(zhì)內(nèi)容外,內(nèi)容生態(tài)治理的另一項(xiàng)主要工作是打擊劣質(zhì)內(nèi)容。這也是只有機(jī)器和人工相互配合才能完成的工作。
創(chuàng)作者發(fā)布視頻后,內(nèi)容會(huì)經(jīng)歷多層審核。第一層審核針對(duì)所有視頻,目的是擋住違法違規(guī)、觸犯底線的內(nèi)容,主要靠機(jī)器,機(jī)器認(rèn)定內(nèi)容風(fēng)險(xiǎn)較高則會(huì)交給人工判斷;播放量再上升到一定程度后,機(jī)器、人工會(huì)配合著二次審核,處理不宜過(guò)多分發(fā),但不涉及底線問(wèn)題的視頻;高熱內(nèi)容還要經(jīng)過(guò)第三層審核。
除了依序推進(jìn)的層級(jí)審核,某個(gè)視頻收到過(guò)多用戶負(fù)面反饋,或流量異常突變時(shí),也會(huì)觸發(fā)研判治理環(huán)節(jié),如果治理員工發(fā)現(xiàn)問(wèn)題,同樣會(huì)停止分發(fā)和推薦視頻。
上述標(biāo)準(zhǔn)審核流程外,抖音還會(huì)針對(duì)網(wǎng)絡(luò)暴力、未成年人保護(hù)、AIGC違規(guī)內(nèi)容治理等焦點(diǎn)問(wèn)題發(fā)起專項(xiàng)治理,單獨(dú)設(shè)立團(tuán)隊(duì)構(gòu)建治理框架。比如,和抵制網(wǎng)絡(luò)暴力相關(guān)的措施包括搭建網(wǎng)暴賬號(hào)監(jiān)控池、上線一鍵關(guān)閉來(lái)自陌生人的評(píng)論、私信及被搜索到的功能等。
“之所以叫‘專項(xiàng)’,是因?yàn)橹卫磉@些問(wèn)題需要調(diào)動(dòng)多個(gè)部門,像上線新功能就需要產(chǎn)品、研發(fā)支持。但‘專項(xiàng)治理’不是‘項(xiàng)目制’,沒(méi)有結(jié)項(xiàng)日,開始之后會(huì)長(zhǎng)期持續(xù)做?!崩钕栌钫f(shuō)。
平臺(tái)影響用戶,用戶改變平臺(tái)
無(wú)論是提振優(yōu)質(zhì)內(nèi)容還是打擊劣質(zhì)內(nèi)容,抖音治理措施不是平臺(tái)單方面意志的實(shí)施,而是和用戶行為相互影響、相互適應(yīng)的結(jié)果。
電商主播在抖音賣貨時(shí),習(xí)慣用“米”替代“錢”,這是因?yàn)橛袀餮哉f(shuō)“錢”在平臺(tái)的敏感詞列表中,主播講太多次,會(huì)影響直播間流量。
“這把治理想象得太傻了?!X’是常用字,不可能用作敏感詞過(guò)濾?!崩钕栌罨貞?yīng)。盡管抖音2021年就開始澄清可以用“錢”字,但只要傳聞涉及流量和隨流量而來(lái)的收入,電商商家仍然寧可信其有。
相關(guān)案例增加后,抖音反而得治理非規(guī)范用字,今年會(huì)先從播放量超過(guò)千萬(wàn)次的高熱視頻開始?!耙膊荒芰⒖桃还髯尤蛩?,因?yàn)楹芏嘤脩粢呀?jīng)習(xí)慣直播間里的特定表達(dá)了?!?/p>
對(duì)付謠言時(shí),抖音留有“舉報(bào)”按鈕,希望理智的用戶能自發(fā)識(shí)別、對(duì)抗部分謠言。但李翔宇說(shuō)舉報(bào)渠道產(chǎn)生的信號(hào)并不完全可信,每天最多的舉報(bào)信息都涉及明星,背后是一個(gè)明星的粉絲群體試圖壓制另一個(gè)明星相關(guān)內(nèi)容的流量。
為更好地識(shí)別、對(duì)抗謠言,抖音設(shè)有一個(gè)三十人的團(tuán)隊(duì),每天主動(dòng)巡檢、收集各類虛假信息,整理成一個(gè)“謠言庫(kù)”,然后交給機(jī)器學(xué)習(xí)模型識(shí)別相關(guān)視頻?!氨热缛斯と霂?kù)一個(gè)‘韋東奕解決了六個(gè)博士四個(gè)月沒(méi)解決的難題’的謠言,只要已有、新上傳的視頻內(nèi)有相關(guān)表述,就會(huì)被機(jī)器識(shí)別然后處置。”
一些信息在傳播過(guò)程中因關(guān)鍵要素缺失,導(dǎo)致用戶理解偏差,演變?yōu)橹{言,平臺(tái)就得通過(guò)多次核實(shí)才能“跑贏”這些不實(shí)信息。
一個(gè)例子是,近期網(wǎng)絡(luò)上廣泛傳播的“犬類禁養(yǎng)名單”。謠言炮制者拼湊各地分散的養(yǎng)犬管理規(guī)定,把部分城市在特定區(qū)域?qū)μ囟ㄈN的限養(yǎng)政策,夸大為全國(guó)性禁養(yǎng)政策。對(duì)此,抖音需反復(fù)查閱官方文件,才能還原事件真相:目前,國(guó)家層面尚未出臺(tái)統(tǒng)一的禁養(yǎng)政策,相關(guān)管控措施由各省市地方政府制定。
今年二季度開始,抖音治理團(tuán)隊(duì)依據(jù)信息危害程度,進(jìn)一步將謠言分為“需要核實(shí)”和“無(wú)需核實(shí)”兩類。
“無(wú)需核實(shí)”類包括“明確存在不良社會(huì)影響或違背常識(shí)的無(wú)稽之談”的內(nèi)容,如“某高校研究發(fā)現(xiàn)人類可以重生”,會(huì)直接被平臺(tái)限制傳播。“需要核實(shí)”的信息,先由聯(lián)網(wǎng)大語(yǔ)言模型進(jìn)行事實(shí)核查,若模型檢索到的權(quán)威信源不足,則觸發(fā)人工核查員介入,最終根據(jù)核查結(jié)果,將內(nèi)容細(xì)分為“謠言”“疑似謠言”“爭(zhēng)議內(nèi)容”三類,并匹配對(duì)應(yīng)的分級(jí)處置策略。
和謠言同樣棘手的是熱點(diǎn)事件。去年一名網(wǎng)名為“胖貓”的男生跳江身亡后,他的姐姐在抖音發(fā)聲指責(zé)“胖貓”女友詐騙錢財(cái),發(fā)酵成為公共事件,但公安部門調(diào)查后發(fā)現(xiàn)指責(zé)不實(shí)。反思時(shí),抖音認(rèn)為熱點(diǎn)事件當(dāng)事人有發(fā)聲權(quán)利,但在事實(shí)水落石出前,也應(yīng)該防止當(dāng)事人不當(dāng)利用輿論,傷害其他相關(guān)方。
今年5月,抖音出臺(tái)社區(qū)熱點(diǎn)信息和賬號(hào)治理規(guī)則?;驹瓌t之一是“保護(hù)熱點(diǎn)發(fā)酵中當(dāng)事人(方)的隱私、名譽(yù)、人身安全等權(quán)益?!睂?duì)事實(shí)不清的熱點(diǎn)信息,抖音會(huì)增加提醒標(biāo)簽,并會(huì)通過(guò)熱榜、彈窗推送的方式傳播熱點(diǎn)事件節(jié)點(diǎn)信息、核心事實(shí)。
此外,爭(zhēng)議熱點(diǎn)事件爆發(fā)后,抖音會(huì)暫時(shí)禁止當(dāng)事人帶貨、接廣告或接受直播打賞。這既是因?yàn)楣姺锤兴厝俗呒t后立刻變現(xiàn),也為防止當(dāng)事人生活受巨大流量反噬。
問(wèn)及是否對(duì)熱點(diǎn)當(dāng)事人管得太嚴(yán)時(shí),李翔宇說(shuō)很難定論:“根據(jù)很多熱點(diǎn)事件演進(jìn)的經(jīng)驗(yàn),當(dāng)事人可能需要冷靜一段時(shí)間想清楚后續(xù)的規(guī)劃。冷靜期過(guò)后,我們會(huì)放開對(duì)變現(xiàn)的限制?!?/p>
必然的變革,漫長(zhǎng)的適應(yīng)期
“和你的瀏覽器說(shuō)再見吧!”1997年,科技作家凱文·凱利在《推送!》(Push?。┮晃闹袑懙?。他把靠人們主動(dòng)搜索來(lái)傳遞信息的互聯(lián)網(wǎng)稱作“拉式媒體”(PullMedia),并預(yù)言它會(huì)被“推式媒體”(PushMedia)取代:
不等用戶點(diǎn)擊,內(nèi)容會(huì)主動(dòng)出現(xiàn)在電視機(jī)上、電腦上、墻上、擋風(fēng)玻璃上,或者其他任何能塞下一塊屏幕的地方。憑借無(wú)線傳輸技術(shù),一度安靜的角落里也會(huì)充斥信息,廣告商爭(zhēng)搶人民注意力的競(jìng)爭(zhēng)會(huì)空前激烈——總之,帶著全新的交互方式,推式媒體將塑造一個(gè)全新的世界。
只要人類創(chuàng)造信息的速度快于消化信息的速度,情況就不可避免地朝凱利描繪的方向演進(jìn)。但速度沒(méi)那么快。2006年Facebook上線無(wú)限滾動(dòng)的NewsFeed信息流后,靠推薦算法變得可用的推式媒體才算登陸電腦。等推式媒體開始占領(lǐng)手機(jī)屏幕,還得再十年。
過(guò)程中,種種爭(zhēng)議也隨之而來(lái)。YouTube推薦算法一度被報(bào)道過(guò)分追求“用戶觀看時(shí)間”,一步步把用戶引至容易上癮的陰謀論視頻;Instagram被指責(zé)加重用戶身材焦慮,其他主流內(nèi)容平臺(tái)的信息流幾乎都引發(fā)過(guò)批評(píng)。
這不可避免。改天換地的新技術(shù)總是創(chuàng)造矛盾、引起爭(zhēng)議,這些矛盾、爭(zhēng)議先引致新的監(jiān)管框架、社會(huì)共識(shí),然后約束新技術(shù)更好地服務(wù)社會(huì)。
每一次公眾、監(jiān)管對(duì)內(nèi)容平臺(tái)的問(wèn)責(zé),每一次問(wèn)責(zé)后平臺(tái)的反思、調(diào)整,都是新技術(shù)和社會(huì)的相互磨合的注腳。
最終檢驗(yàn)算法的優(yōu)劣的,不是它匹配內(nèi)容和觀眾的精度,而是它與使用者之間相互適應(yīng)的程度。
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。