算法背后:平臺和用戶相互影響。
文丨孫海寧
編輯丨高洪浩
內容平臺天生面臨一個矛盾:推薦算法太透明,不但暴露商業(yè)機密,還容易鼓勵創(chuàng)作者和商家針對優(yōu)化特定數據搏流量;推薦算法不透明,每當攪動社會情緒的事件出現,用戶總會懷疑內容平臺在操控信息流動。
抖音是國內最大的內容平臺之一,相應也受到最猛烈的批評。去年11月,知名企業(yè)家鐘睒睒公開指責抖音放縱造謠賬號抹黑企業(yè)形象,引發(fā)共鳴;近期,北京大學青年教師韋東奕在抖音開通賬號,迅速獲得超千萬名粉絲,又有用戶指責抖音“造神”。
同期,中國監(jiān)管部門也發(fā)起針對互聯(lián)網平臺的治理行動,把“以適當方式公示算法推薦服務的基本原理、目的意圖、主要運行機制等”作為工作目標。
今年年初開始,抖音成立算法透明項目組,首次對外解釋推薦算法的原理、治理內容生態(tài)的思路?!锻睃cLatePost》訪談了抖音算法、生態(tài)治理相關負責人,了解這家公司如何影響用戶、又如何被用戶影響。
推薦算法學習用戶行為規(guī)律
用戶點擊手機上的音符圖標,打開應用的幾秒內,抖音推薦算法已經在每天增加數億個視頻的內容庫中,完成推薦運算,再根據運算結果排序。大邏輯不復雜:
先分別估計視頻引起用戶某個行為——點贊、評論、進入直播間等等——的概率,再用事先確定的行為價值分數和行為概率相乘,然后加總。最終得分越高,視頻就越可能被刷出。
預測行為概率是靠歷史數據。過往視頻激發(fā)了哪些行為,以及這些視頻、視頻觀眾的特征,會源源不斷地匯入機器學習模型,就像帶有標準答案的樣題,供模型學習。理想情況下,每迭代一次,模型預測行為概率時就估得更準。
“模型本質是在學某類人對某類視頻發(fā)生特定行為的規(guī)律?!倍兑羲惴üこ處焺痴f,“如果模型判斷你我興趣相近,之前我點贊某個歷史視頻,那模型可能估計你也容易為它點贊?!?/p>
平臺能獲取到的各類信息可能都有助于提高模型預測的準確度。為增加模型可用信息,抖音有時還會重新設計用戶界面。2021年之前,為求首面板簡潔干凈,用戶只有長按屏幕或者點擊分享之后,才能在二級面板內收藏視頻。但在推薦團隊嘗試提升中、長視頻的分發(fā)效率后,意識到“用戶收藏”是反映視頻質量的重要信號,因此將收藏按鈕提至首面板,方便收集更多收藏數據。
模型估出用戶各項行為概率后,還要乘以預先確定的價值分。價值分越高,意味著某項行為越被平臺鼓勵。相比目標是提高客觀預測精度的行為概率模型,價值分更體現平臺主觀偏好,設定不好,就可能大幅影響平臺生態(tài)。
抖音確定行為價值分是靠A/B測試:微調一組用戶推薦算法的價值分,再和另一組沒調整的用戶對照,觀察平臺重視的各項指標如何變化。這些指標可以是日活躍用戶數量、創(chuàng)作者投稿數量、平臺商品銷售額等。
多個指標可能同時朝不同方向變動。這時抖音數據分析團隊會在各個指標之間創(chuàng)建換算關系,并約束它們對最重要的“北極星”指標——長期留存——的影響。
觀察上述指標變化,抖音可以判斷業(yè)務團隊是否像自己聲稱地那樣完成任務。比如抖音電商定位“興趣電商”,目標是推薦用戶需要的商品?!昂饬客扑]精度的電商轉化率提高,就不能把衡量用戶體驗的活躍度指標拉下去?!眲痴f。
用戶使用抖音的習慣不同,同一行為暗含的信息量也就不同。熱衷點贊的用戶可能不放過每次鼓勵創(chuàng)作者的機會,無論視頻質量優(yōu)劣;要求更高的用戶則只會對自認為最高質量的內容點贊。顯然,后一種點贊顯出視頻對用戶的價值更高,價值分應該隨之調整。
為此,抖音允許價值分在平臺預設的基礎上千人千面地變化,同時也會針對有特定觀看習慣的用戶設計特定策略,由此保證價值分反應用戶偏好。
抖音會控制價值分個性化,或者針對特定行為策略的復雜程度。劉暢說這一方面是出于成本考慮,多一個模型動態(tài)調整價值分,算力成本就被堆得更高。另外,推薦系統(tǒng)需要控制復雜度,增強算法魯棒性——讓系統(tǒng)面對各種干擾時仍保持穩(wěn)定運轉。
先人工定調,再機器放大
推薦算法并非萬能。它只是根據用戶可能“點贊、評論、分享”的概率,加上平臺給這些動作設定的權重,為內容排序,看不出視頻本身是否優(yōu)質。維護內容生態(tài),先得由平臺員工確定內容評判標準后,推薦算法才能批量執(zhí)行。
抖音內容運營負責人李翔宇告訴《晚點LatePost》,2023年開始,抖音運營部門更重視增加優(yōu)質內容占比。
新工作從定義何為“優(yōu)質供給”開始。運營員工人工初篩出各個內容類目的優(yōu)質視頻,然后定期開會二次篩選、討論,提煉出這些視頻的特點,形成可以被文字闡釋的標準。
“我們會請創(chuàng)作者幫忙一起研判,一些觀看次數不高、可我們覺得是優(yōu)質的內容會發(fā)給創(chuàng)作者,請他們從專業(yè)視角評判?!崩钕栌钫f。過程中,播放量高但沒有創(chuàng)意的視頻也會被拿出來討論,“比如賣弄技巧,但沒有信息量的視頻?!?/p>
優(yōu)質標準是動態(tài)調整的?!岸兑魟偵暇€時,運鏡視頻肯定屬于優(yōu)質內容。但發(fā)的人越來越多,觀眾審美疲勞,創(chuàng)作者就需要在運鏡基礎上增加更多創(chuàng)新玩法。”李翔宇說。
標準制定好,更多內容運營和審核員工就能參考它們,為更多內容打上“優(yōu)質視頻/非優(yōu)質視頻”的標簽。這之后,有了學習樣本的算法開始發(fā)揮效力,批量識別出還沒經過人工評判的優(yōu)質視頻。
“算法的優(yōu)勢在于批量處理。畢竟運營員工能研判的視頻數量是有限的,算法可以將更多優(yōu)質創(chuàng)作者和優(yōu)質視頻更早地發(fā)掘出來。”李翔宇說。
就像所有內容平臺,抖音會對優(yōu)質視頻提供流量激勵。之前的方式是保證它們獲得一定播放量,但效果有限?!氨热缰小㈤L知識類視頻,用保證一定播放量的方式幫它們完成冷啟動,之后完播率還是天生不如10秒短視頻,得不到算法重視?!崩钕栌钫f。
新辦法是在定義優(yōu)質內容后,看哪些用戶行為和行為價值分可以讓流量導向優(yōu)質內容,抖音就強化這些目標,如收藏、反復觀看、搜索等。去年,一條450分講紅樓夢的視頻獲得3億播放、780萬收藏、637萬分享,大量用戶的收藏和分享,讓這條長視頻得到更好的分發(fā),被抖音當作算法和用戶雙向選擇的最佳實踐。
提振優(yōu)質內容外,內容生態(tài)治理的另一項主要工作是打擊劣質內容。這也是只有機器和人工相互配合才能完成的工作。
創(chuàng)作者發(fā)布視頻后,內容會經歷多層審核。第一層審核針對所有視頻,目的是擋住違法違規(guī)、觸犯底線的內容,主要靠機器,機器認定內容風險較高則會交給人工判斷;播放量再上升到一定程度后,機器、人工會配合著二次審核,處理不宜過多分發(fā),但不涉及底線問題的視頻;高熱內容還要經過第三層審核。
除了依序推進的層級審核,某個視頻收到過多用戶負面反饋,或流量異常突變時,也會觸發(fā)研判治理環(huán)節(jié),如果治理員工發(fā)現問題,同樣會停止分發(fā)和推薦視頻。
上述標準審核流程外,抖音還會針對網絡暴力、未成年人保護、AIGC違規(guī)內容治理等焦點問題發(fā)起專項治理,單獨設立團隊構建治理框架。比如,和抵制網絡暴力相關的措施包括搭建網暴賬號監(jiān)控池、上線一鍵關閉來自陌生人的評論、私信及被搜索到的功能等。
“之所以叫‘專項’,是因為治理這些問題需要調動多個部門,像上線新功能就需要產品、研發(fā)支持。但‘專項治理’不是‘項目制’,沒有結項日,開始之后會長期持續(xù)做?!崩钕栌钫f。
平臺影響用戶,用戶改變平臺
無論是提振優(yōu)質內容還是打擊劣質內容,抖音治理措施不是平臺單方面意志的實施,而是和用戶行為相互影響、相互適應的結果。
電商主播在抖音賣貨時,習慣用“米”替代“錢”,這是因為有傳言說“錢”在平臺的敏感詞列表中,主播講太多次,會影響直播間流量。
“這把治理想象得太傻了?!X’是常用字,不可能用作敏感詞過濾?!崩钕栌罨貞?。盡管抖音2021年就開始澄清可以用“錢”字,但只要傳聞涉及流量和隨流量而來的收入,電商商家仍然寧可信其有。
相關案例增加后,抖音反而得治理非規(guī)范用字,今年會先從播放量超過千萬次的高熱視頻開始。“也不能立刻一棍子全打死,因為很多用戶已經習慣直播間里的特定表達了。”
對付謠言時,抖音留有“舉報”按鈕,希望理智的用戶能自發(fā)識別、對抗部分謠言。但李翔宇說舉報渠道產生的信號并不完全可信,每天最多的舉報信息都涉及明星,背后是一個明星的粉絲群體試圖壓制另一個明星相關內容的流量。
為更好地識別、對抗謠言,抖音設有一個三十人的團隊,每天主動巡檢、收集各類虛假信息,整理成一個“謠言庫”,然后交給機器學習模型識別相關視頻?!氨热缛斯と霂煲粋€‘韋東奕解決了六個博士四個月沒解決的難題’的謠言,只要已有、新上傳的視頻內有相關表述,就會被機器識別然后處置。”
一些信息在傳播過程中因關鍵要素缺失,導致用戶理解偏差,演變?yōu)橹{言,平臺就得通過多次核實才能“跑贏”這些不實信息。
一個例子是,近期網絡上廣泛傳播的“犬類禁養(yǎng)名單”。謠言炮制者拼湊各地分散的養(yǎng)犬管理規(guī)定,把部分城市在特定區(qū)域對特定犬種的限養(yǎng)政策,夸大為全國性禁養(yǎng)政策。對此,抖音需反復查閱官方文件,才能還原事件真相:目前,國家層面尚未出臺統(tǒng)一的禁養(yǎng)政策,相關管控措施由各省市地方政府制定。
今年二季度開始,抖音治理團隊依據信息危害程度,進一步將謠言分為“需要核實”和“無需核實”兩類。
“無需核實”類包括“明確存在不良社會影響或違背常識的無稽之談”的內容,如“某高校研究發(fā)現人類可以重生”,會直接被平臺限制傳播。“需要核實”的信息,先由聯(lián)網大語言模型進行事實核查,若模型檢索到的權威信源不足,則觸發(fā)人工核查員介入,最終根據核查結果,將內容細分為“謠言”“疑似謠言”“爭議內容”三類,并匹配對應的分級處置策略。
和謠言同樣棘手的是熱點事件。去年一名網名為“胖貓”的男生跳江身亡后,他的姐姐在抖音發(fā)聲指責“胖貓”女友詐騙錢財,發(fā)酵成為公共事件,但公安部門調查后發(fā)現指責不實。反思時,抖音認為熱點事件當事人有發(fā)聲權利,但在事實水落石出前,也應該防止當事人不當利用輿論,傷害其他相關方。
今年5月,抖音出臺社區(qū)熱點信息和賬號治理規(guī)則?;驹瓌t之一是“保護熱點發(fā)酵中當事人(方)的隱私、名譽、人身安全等權益?!睂κ聦嵅磺宓臒狳c信息,抖音會增加提醒標簽,并會通過熱榜、彈窗推送的方式傳播熱點事件節(jié)點信息、核心事實。
此外,爭議熱點事件爆發(fā)后,抖音會暫時禁止當事人帶貨、接廣告或接受直播打賞。這既是因為公眾反感素人走紅后立刻變現,也為防止當事人生活受巨大流量反噬。
問及是否對熱點當事人管得太嚴時,李翔宇說很難定論:“根據很多熱點事件演進的經驗,當事人可能需要冷靜一段時間想清楚后續(xù)的規(guī)劃。冷靜期過后,我們會放開對變現的限制?!?/p>
必然的變革,漫長的適應期
“和你的瀏覽器說再見吧!”1997年,科技作家凱文·凱利在《推送!》(Push?。┮晃闹袑懙馈K芽咳藗冎鲃铀阉鱽韨鬟f信息的互聯(lián)網稱作“拉式媒體”(PullMedia),并預言它會被“推式媒體”(PushMedia)取代:
不等用戶點擊,內容會主動出現在電視機上、電腦上、墻上、擋風玻璃上,或者其他任何能塞下一塊屏幕的地方。憑借無線傳輸技術,一度安靜的角落里也會充斥信息,廣告商爭搶人民注意力的競爭會空前激烈——總之,帶著全新的交互方式,推式媒體將塑造一個全新的世界。
只要人類創(chuàng)造信息的速度快于消化信息的速度,情況就不可避免地朝凱利描繪的方向演進。但速度沒那么快。2006年Facebook上線無限滾動的NewsFeed信息流后,靠推薦算法變得可用的推式媒體才算登陸電腦。等推式媒體開始占領手機屏幕,還得再十年。
過程中,種種爭議也隨之而來。YouTube推薦算法一度被報道過分追求“用戶觀看時間”,一步步把用戶引至容易上癮的陰謀論視頻;Instagram被指責加重用戶身材焦慮,其他主流內容平臺的信息流幾乎都引發(fā)過批評。
這不可避免。改天換地的新技術總是創(chuàng)造矛盾、引起爭議,這些矛盾、爭議先引致新的監(jiān)管框架、社會共識,然后約束新技術更好地服務社會。
每一次公眾、監(jiān)管對內容平臺的問責,每一次問責后平臺的反思、調整,都是新技術和社會的相互磨合的注腳。
最終檢驗算法的優(yōu)劣的,不是它匹配內容和觀眾的精度,而是它與使用者之間相互適應的程度。
我的世界:老玩家的“奇葩”腦洞,這樣的建筑風格你喜歡嗎???小...
一款非常樸實的“火柴盒”,首先一個樸素的不能再樸素的笑臉,給仙人掌增加了些許的“靈氣”,顯得不那么單調————。每一格仙人掌都是一個正方形,所以這個三層的小樓,剛剛好是一個三個高的巨型仙人掌,房間內的空間還算富裕,可以容納大部分的物品跟工具-。適合在沙漠地形搭建,完美融入了“仙人掌”大家庭。一款巨型的建筑,甚至可以容納你所 三本穿越空間小說,靈氣空間+種田修真,每一本都讓人欲罷不能!1.《隨身空間田園山居》簡介:蘇鈺帶著奶奶的骨灰,來到了奶奶的老家,本想將奶奶安葬后再回城里找工作,但一個突然的意外讓她改變了主意……那個奶奶送給她的傳家手鐲,竟是一個空間,就像小說里的那樣,能種田,有泉水……因著這個空間,蘇鈺決定說完了|。空間文,家傳玉佩讓她破繭重生,空間充滿靈氣,修仙長生登大道!