二次元網(wǎng)友因囤大量「吧唧」深夜中毒送醫(yī),為啥會(huì)這么嚴(yán)重?一個(gè)健康成年人,大概囤多少「吧唧」會(huì)導(dǎo)致中毒?
甘肅省人民醫(yī)院托管天水第二人民醫(yī)院次日,新任院長直抵檢驗(yàn)科
7 月 25 日乒超聯(lián)賽,樊振東 3-0 林詩棟,如何評價(jià)本場比賽?
【時(shí)代少年團(tuán)】《小炸的暑假生活》02:時(shí)在不一般
「最強(qiáng),并非虛名」——《少女前線2:追放》威瑪西娜角色PV公開
henry發(fā)自凹非寺量子位|公眾號(hào)QbitAI
眾所周知,老黃不僅賣鏟子(GPU),還自己下場開礦(造模型)。
英偉達(dá)最新推出的LlamaNemotronSuperv1.5開源模型就專為復(fù)雜推理和agnet任務(wù)量身打造。
模型在科學(xué)、數(shù)學(xué)、編程及agent任務(wù)中實(shí)現(xiàn)SOTA表現(xiàn)的同時(shí),還將吞吐量提升至前代的3倍,且可在單卡高效運(yùn)行,實(shí)現(xiàn)更準(zhǔn)、更快、更輕的“既要又要還要”。
這是怎么做到的?
模型介紹
LlamaNemotronSuperv1.5是Llama-3.3-Nemotron-Super-49B-V1.5的簡稱。它是Llama-3.3-Nemotron-Super-49B-V1的升級版本(該模型是Meta的Llama-3.3-70B-Instruct的衍生模型),專為復(fù)雜推理和智能體任務(wù)設(shè)計(jì)。
模型架構(gòu)
LlamaNemotronSuperv1.5采用神經(jīng)架構(gòu)搜索(NeuralArchitectureSearch,NAS),使該模型在準(zhǔn)確率和效率之間實(shí)現(xiàn)了良好的平衡,將吞吐量的提升有效轉(zhuǎn)化為更低的運(yùn)行成本。
(注:NAS的目標(biāo)是通過搜索算法從大量的可能架構(gòu)中找到最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用自動(dòng)化方法替代人工設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu),從而提高模型的性能和效率。)
在LlamaNemotronSuperv1.5中,NAS算法生成了非標(biāo)準(zhǔn)、非重復(fù)的網(wǎng)絡(luò)模塊(blocks)。相較于傳統(tǒng)的Transformer,其包含以下兩類變化:
跳過注意力機(jī)制(Skipattention):在某些模塊中,直接跳過了注意力層,或者只用一個(gè)線性層來代替。可變前饋網(wǎng)絡(luò)(VariableFFN):在前饋網(wǎng)絡(luò)(FeedforwardNetwork)中,不同模塊采用了不同的擴(kuò)展/壓縮比。
由此,模型通過跳過attention或改變FFN寬度以減少FLOPs,從而在資源受限時(shí)更高效地運(yùn)行模型。
之后,研究團(tuán)隊(duì)還對原始的Llama模型(Llama3.370BInstruct)進(jìn)行了逐模塊的蒸餾(block-wisedistillation),通過對每個(gè)模塊構(gòu)造多個(gè)變體,并在所有模塊結(jié)構(gòu)中搜索組合,從而構(gòu)建一個(gè)模型。
使它既能滿足在單個(gè)H10080GB顯卡上的吞吐量和內(nèi)存要求,又盡量減少性能損失。
訓(xùn)練與數(shù)據(jù)集
模型首先在FineWeb、Buzz-V1.2和Dolma三個(gè)數(shù)據(jù)集共400億個(gè)token的訓(xùn)練數(shù)據(jù)上進(jìn)行了知識(shí)蒸餾(knowledgedistillation,KD),重點(diǎn)關(guān)注英語單輪和多輪聊天。
在后訓(xùn)練階段,模型通過結(jié)合監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)的方法,以進(jìn)一步提升模型在代碼、數(shù)學(xué)、推理和指令遵循等關(guān)鍵任務(wù)上的表現(xiàn)。
這些數(shù)據(jù)既包括來自公開語料庫的題目,也包含人工合成的問答樣本,其中部分題目配有開啟和關(guān)閉推理的答案,旨在增強(qiáng)模型對推理模式的辨別能力。
英偉達(dá)表示數(shù)據(jù)集將在未來幾周內(nèi)發(fā)布。
總的來說,LlamaNemotronSuperV1.5是一個(gè)通過NAS自動(dòng)優(yōu)化架構(gòu)、精簡計(jì)算圖的Llama3.370BInstruct變體。它針對單卡運(yùn)行場景做了結(jié)構(gòu)簡化、知識(shí)蒸餾訓(xùn)練與后訓(xùn)練,兼顧高準(zhǔn)確性、高吞吐量與低資源占用,特別適合英語對話類任務(wù)及編程任務(wù)的部署。
此外,在部署方面,英偉達(dá)延續(xù)了其一貫的生態(tài)優(yōu)勢:
我們的AI模型專為在NVIDIAGPU加速系統(tǒng)上運(yùn)行而設(shè)計(jì)和/或優(yōu)化。通過充分利用NVIDIA的硬件(如GPU核心)和軟件框架(如CUDA庫),相比僅依賴CPU的方案,模型在訓(xùn)練和推理階段實(shí)現(xiàn)了顯著的速度提升。
該模型現(xiàn)已開源。開發(fā)者可以在build.nvidia.com體驗(yàn)LlamaNemotronSuperv1.5或直接從HuggingFace下載模型。
Onemorething
作為英偉達(dá)最新發(fā)布的開源大語言模型,LlamaNemotronSuperv1.5隸屬于英偉達(dá)Nemotron生態(tài),該生態(tài)集成了大語言模型、訓(xùn)練與推理框架、優(yōu)化工具和企業(yè)級部署方案,旨在實(shí)現(xiàn)高性能、可控性強(qiáng)、易于擴(kuò)展的生成式AI應(yīng)用開發(fā)。
為滿足不同場景需求與用戶定位,英偉達(dá)在此生態(tài)的基礎(chǔ)上推出了三個(gè)不同定位的大語言模型系列——Nano、Super和Ultra。
其中,Nano系列針對成本效益和邊緣部署,適合部署在邊緣設(shè)備(如移動(dòng)端、機(jī)器人、IoT設(shè)備等)或成本敏感型場景(比如本地運(yùn)行、離線場景、商業(yè)小模型推理)。
Super系列則針對單個(gè)GPU上平衡的精度和計(jì)算效率,它可以在一張高性能GPU(如H100)上運(yùn)行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,適合企業(yè)開發(fā)者或中型部署。我們上面提到的LlamaNemotronSuperv1.5就屬于這一系列。
Ultra則致力于數(shù)據(jù)中心的最大精度,專為在數(shù)據(jù)中心、超算集群、多張GPU上運(yùn)行而設(shè)計(jì),面向復(fù)雜推理、大規(guī)模生成、高保真對話等對精度要求極高的任務(wù)。
目前,Nemotron已獲得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte等企業(yè)支持或集成使用,用于構(gòu)建面向企業(yè)級流程自動(dòng)化和復(fù)雜問題解決的AI智能體平臺(tái)。
此外,在AmazonBedrockMarketplace中也能通過NVIDIANIM微服務(wù)調(diào)用Nemotron模型,簡化部署流程,支持云端、混合架構(gòu)等多種運(yùn)營方案。
[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/
12本已完結(jié)領(lǐng)主流魔幻史詩小說,劍與魔法的世界,血火中加冕成王
三本萬人收藏的東方玄幻高分小說,高能不停,口碑爆表
女尊強(qiáng)文:她一心想報(bào)仇雪恨,可三個(gè)太子和五個(gè)邪王卻爭著來寵她