特斯拉 Q2 營收 225.0 億美元,同比減少 12%,創(chuàng)下至少十年來最大降幅,如何看待這一表現(xiàn)?
作者|鄧詠儀
編輯|蘇建勛
以往在大模型上一直低調行事,但在AI應用上,騰訊這回終于不藏著了。
7月26日,世界人工智能大會(WAIC)在上海開幕。明顯可見的是,騰訊在WAIC上,讓AI智能體成為14億用戶的“數(shù)字好友”,用智能體構建起了一個“好友圈”,覆蓋用戶生活中的
騰訊也發(fā)布了從自研大模型到智能體的多項新品,可以說是“AI全家桶“,包括:
ToB一側:新發(fā)布混元世界模型1.0,能夠應用在VR,游戲開發(fā),場景編輯,物理仿真等;接下來還要開源多個混元小體量模型;ToC一側,發(fā)布了超過10個Agent(智能體),朱啊喲圍繞生活、學習、工作場景,包括旅游規(guī)劃Agent平臺層面:發(fā)布了智能體開發(fā)平臺、具身智能開放平臺Tairos、AIGC內(nèi)容生成平臺、端側大模型平臺、AI教育平臺
“現(xiàn)在的AI是從到短期記憶到長期記憶的演進”,騰訊云副總裁、騰訊云智能負責人、騰訊優(yōu)圖實驗室負責人吳運聲表示,在很長一段時間里面,大模型只能記住比較短的上下文,這對復雜任務是不夠的。
而騰訊大力投入到智能體中,也是對技術演進路線的探索。比如多智能體協(xié)同——吳運聲表示,AI技術正在從圖文問答向全方位的多模態(tài)(視頻、圖像、音頻等)交互演進,全模態(tài)的無縫的交互在以后是不要的。而如果有不同的智能體負責不同的專業(yè),去讓各種各樣智能體做協(xié)同,才能去完成更加復雜的任務。
△來源:騰訊
2023年,騰訊云剛剛發(fā)布混元大模型家族時,講的還是“行業(yè)大模型”的故事——從金融、政務、運營商等10大行業(yè),主打“行業(yè)大模型”的路線,一口氣拋出超過50個解決方案。
但到現(xiàn)在,敘事已經(jīng)改變,從語言模型迅速擴展到多模態(tài)、具身智能。
這次WAIC上,騰訊也首次重點發(fā)布了具身智能相關的進展。騰訊旗下的RoboticsX實驗室與福田實驗室,聯(lián)合發(fā)布了“具身智能開放平臺Tairos”。
△來源:騰訊
這是國內(nèi)首個以模塊化的方式提供大模型、開發(fā)工具和數(shù)據(jù)服務的具身智能軟件平臺,即插即用,且面向機器人行業(yè)開放,為機器人本體開發(fā)商與應用開發(fā)商補齊關鍵的軟件能力。
模型和ToB/ToC應用兩手抓
在模型側,這次騰訊正式發(fā)布的重點是混元3D世界模型1.0,并宣布全面開源。
如果說大語言模型(LLM)的技術演進路線已經(jīng)逐步明晰,從擴大規(guī)模Scaleup,到以強化學習(ReinforceLearning)為主的下半場;那么多模態(tài)的發(fā)展階段還在早期,無論是技術選型、高質量數(shù)據(jù)、模型工程都有多項難點。
多模態(tài)則是今年各家比拼的重點,而世界模型也是多模態(tài)的一個重要分支,在2024年12月才興起。
簡單來說,騰訊混元3D世界模型1.0融合了全景視覺生成與分層3D重建技術,同時支持文字和圖片輸入,實現(xiàn)了高質量、風格多樣的可漫游3D場景生成。
△來源:騰訊
過去,3D建模和渲染是個巨大的工程,需要專業(yè)建模團隊數(shù)周才能搭建。現(xiàn)在,只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。
談及世界模型的訓練難點,數(shù)據(jù)是其中一個。騰訊混元3D負責人郭春超在接受包括36氪等媒體采訪時表示,目前3D資產(chǎn)主要依賴于藝術家或建模師的手工制作,因此其數(shù)量僅為幾千萬級,與百億、千億級的圖片數(shù)量相比,存在數(shù)量級上的差距,這種獲取難度較大的情況是客觀存在的。
對于未來的發(fā)展重點,郭春超表示,混元世界模型的目標有兩方面:一是提升3D資產(chǎn)生成的質量,使其達到更高的商用水平。目前,3D資產(chǎn)生成已達到中等水平,但與頂尖水平仍有差距。通過提高生成質量和泛化性,他們希望能更好地滿足游戲、自動駕駛、XR、動漫及影視等行業(yè)的需求,降低成本并縮短周期;
二則是改進場景生成和交互模型,構建更完整、真實模擬物理規(guī)律的世界模型,今年重點開展,在明年達到更高成熟度。
今年年初,DeepSeekR1的經(jīng)驗已經(jīng)證明,在嶄新的技術領域,搶占技術話語權,并且做出令人尊敬的工作,能夠獲得巨大的市場回報。
在那之后,各家都紛紛加快了開源步伐。事實上,除本次發(fā)布即開源的混元3D世界模型1.0,混元還將在月底開源一系列小尺寸模型,包含0.5B、1.8B、4B、7B混合推理模型,更輕量、好部署。
騰訊由于游戲、社交等內(nèi)容領域的積累,在多模態(tài)的探索上,已經(jīng)是國內(nèi)第一梯隊的選手?,F(xiàn)在,騰訊已經(jīng)對外提供接近商業(yè)模型性能的開源基座,方便社區(qū)基于業(yè)務和使用場景定制。
據(jù)騰訊發(fā)布的公開數(shù)據(jù),如今騰訊的圖像、視頻衍生模型數(shù)量分別達到1400和1600個,混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。
除了世界模型之外,騰訊混元還披露了包括端側混合推理語言模型、多模態(tài)理解模型、游戲視覺模型等在內(nèi)的一系列開源計劃。
比如,即將開源的混元-large-vision,就是在LMArenaVision榜單拿下國內(nèi)第一的多模態(tài)理解模型;而專為游戲場景優(yōu)化的、交互式游戲視頻生成框架“混元GameCraft”,也會在近期對外開源。
落地,還是落地
在大模型的戰(zhàn)略上,騰訊一而貫之的風格是務實,這次的WAIC上,騰訊的主題也是“讓‘好用的AI’成為普惠生產(chǎn)力”。
騰訊已經(jīng)將Agent的能力,嵌入到騰訊多個ToB及ToC應用中,覆蓋生活、工作、學習、娛樂等場景。
在學習場景,QQ瀏覽器QBot提供AI搜索、AI瀏覽、AI辦公、AI學習、AI寫作等功能;imaAI工作臺可以輔助完成日常學習和工作任務,并長期沉淀為個人的智能化知識庫,也支持加入別人的共享知識庫進行精準問答。
又比如,旅游規(guī)劃Agent。它可以根據(jù)參觀者需求,一鍵生成旅行攻略,還可隨時對生成的攻略進行個性化編輯。同時通過內(nèi)置小程序直接實現(xiàn)無縫下單,真正實現(xiàn)一次輸入,多項指令一步到位。
△來源:騰訊
在娛樂創(chuàng)作方面,QQ音樂也上線了“AI作歌”及“AI唱”功能,幫助用戶創(chuàng)作或者高質量“演唱”歌曲。此前,QQ音樂就推出了全球首位AI歌手“AI力宏”。
騰訊不止自己做智能體,也上了配套的智能體“創(chuàng)作工具”。比如,“騰訊云智能體開發(fā)平臺”和“騰訊元器”兩大智能體開發(fā)平臺,就可以大大降低AIAgent搭建與使用的門檻,幫助企業(yè)客戶和創(chuàng)作者搭建屬于自己的智能體。
此前,和企業(yè)上私有云類似,行業(yè)大模型定制化程度高,市場常有“落地成本高”“落地難”的疑問。在大模型這兩年不斷提升能力之后,智能體目前收到追捧。
有了智能體之后,行業(yè)大模型的意義在什么地方?吳運聲對36氪表示,智能體和行業(yè)大模型更多是配合作用。在行業(yè)大模型上,企業(yè)客戶可以和騰訊云共創(chuàng),將行業(yè)Know-how沉淀到行業(yè)大模型中,這些能力可以服用;而智能體則可以通過MCP等協(xié)議,在企業(yè)客戶的前端場景中,解決更小單元的問題。
“智能體能夠放大大模型價值,是解決業(yè)界落地問題的重要形態(tài)。”吳運聲對36氪表示。
盤點白金大神打眼六本高口碑小說,喜歡古玩鑒寶的書友推薦收藏!
都市修真爽文!他因透視強大,撿漏賭石,賭場縱橫,終站都市頂峰
都市修真,少年偶得透視異能,帝王翡翠隨手就能開,號稱賭石之王