JOJO生存 | 展現(xiàn)不完美之姿!影·世界!!#1
IT之家7月22日消息,科技媒體9to5Mac昨日(7月21日)發(fā)布博文,挖掘蘋果新技術報告論文,探究其AI模型的訓練、優(yōu)化及評估過程,并揭示了諸多幕后技術細節(jié)。
這份報告全稱為《AppleIntelligenceFoundationLanguageModels–TechReport2025》,詳盡描述了蘋果在多個AI方面的處理,涵蓋模型架構、數(shù)據(jù)來源、預訓練、后訓練、工具開發(fā)、優(yōu)化措施以及性能基準等。
該媒體解讀該技術報告,挖掘了4個值得關注的要點:
端側(cè)模型雙區(qū)塊設計
此前消息顯示,蘋果的AI模型將采用端側(cè)+云端組合方式,端側(cè)模型規(guī)模大約為30億(3B)個參數(shù)。
根據(jù)最新公布的技術報告,蘋果端側(cè)AI模型分為2個區(qū)塊(Blocks),其中第1個區(qū)塊包含大約62.5%的transformer層,而第2個區(qū)塊包含大約37.5%的transformer層,但移除了鍵(Key)和值(Value)的映射。
蘋果表示這種分割方式,在不影響模型的總體性能和輸出質(zhì)量的情況下,讓模型在緩存時,減少了約37.5%的內(nèi)存需求,同時輸出第一個tokens的時間也縮短了37.5%。
云端模型采用創(chuàng)新架構
對于服務器端模型,蘋果開發(fā)了一種專門為其私有云計算平臺量身定制的架構,名為Parallel-TrackMixture-of-Experts(PT-MoE)。
簡單來說,混合專家(MixtureofExperts)模式意味著,不是依賴單一的大型AI模型,而是將其拆分為多個較小的子網(wǎng)絡(或稱為專家),只有在任務與它們的專長相關時才會激活這些子網(wǎng)絡。
因此,如果輸入提示與烹飪相關,只會激活烹飪領域的專家,而其他專家則保持休眠狀態(tài)。這樣,雖然整體模型依然龐大,但其模塊化的設計使得模型能夠更快、更精確地響應。
蘋果構建了一種名為ParallelTrackTransformer的新型Transformer,并利用混合專家(MoE)層對其進行擴展。聽起來可能很復雜,但關鍵在于:
傳統(tǒng)的Transformer模型會通過一個層的堆棧依次處理tokens,而蘋果的設計則是將模型分為多個并行的軌道。每個軌道獨立處理tokens,并在某些點進行同步。
在每個軌道內(nèi),蘋果將每個其他常規(guī)Transformer層替換為MoE層,每個標記只激活幾個專家,而其他專家保持空閑。由于每個軌道都有自己的本地專家,模型避免了在整個系統(tǒng)中協(xié)調(diào)時的處理瓶頸。
再加上一個平衡本地上下文與整體理解(稱為交織全局和本地關注層)的巧妙設計,最終形成了一個模塊化、高效、可擴展的模型,速度更快、更精簡,同時保持了高度的智能。
蘋果大幅提升多語言支持
Apple智能最初推出時最受詬病的問題之一(現(xiàn)在依然存在),是英語之外的語言支持有限。隨著新模型的發(fā)布,蘋果擴展了語言支持范圍,并在報告中詳細介紹了實現(xiàn)這一目標的步驟。
報告中提到,蘋果將訓練過程中使用的外語數(shù)據(jù)量從8%增加到了30%。蘋果還將其標記器的容量增加了50%,意味著模型現(xiàn)在能夠識別150K個不同的標記,而之前只能識別100K個。
數(shù)據(jù)收集
另外是關于數(shù)據(jù)收集方面,可以參考IT之家此前發(fā)布的博文。
蘋果在新發(fā)布的研究論文中表示,如果出版商不同意其數(shù)據(jù)被抓取用于訓練,蘋果公司將不會抓取這些數(shù)據(jù)。
我們相信,使用多樣且高質(zhì)量的數(shù)據(jù)來訓練我們的模型是必要的。這些數(shù)據(jù)包括我們從出版商那里獲得授權的數(shù)據(jù)、公開可用或開源數(shù)據(jù)集中的數(shù)據(jù),以及通過我們的網(wǎng)絡爬蟲Applebot抓取的公開信息。
人人必讀的《修仙歸來在校園》,最值得回味的片段,真的讓人很愛!
魅力四射的神奇作品《修仙歸來在校園》,追到不愿放開手!
口碑之作《修仙歸來在校園》,讓人眼前一亮的章節(jié),看完熱血沸騰...