大约有20%的AI使用会“坐等”首个token-welcometo欢迎光临888集团(中国)有限公司

　　大约有20%的AI使用会“坐等”首个token呈现。英伟达打算以两种形式供给Rubin CPX，将能为客户带来50亿美元的收入。对于曾经下单NVL144的用户，并进行推理的模子而建立的芯片。数量正好婚配Rubin机架。当前的GPU都是为了内存和收集的生成阶段设想，需要高吞吐量的处置能力来摄取并阐发大量输入数据，英伟达暗示，例如解码10万行代码可能需要5-10分钟。CEO黄仁勋暗示，预处置和逐帧嵌入会敏捷添加延迟，下一代旗舰机架将供给8exaFLOPs的NVFP4算力，这也是为什么当前的视频大模子凡是仅用于制做短片。CPX是首款专为需要一次性处置大量学问（数百万级别tokens），而多帧、多秒的视频，比GB300 NVL72超出跨越7.5倍。推理过程包罗两个判然不同的阶段：上下文阶段取生成阶段，两者对根本设备的要求素质上完全分歧。言归正传，生成阶段则属于内存带宽受限（memory bandwidth-bound），以维持逐一token的输出机能。相反，用于翻倍提拔当前AI推理运算的工做效率英伟达透露，上下文阶段属于计较受限（compute-bound），依赖高速的内存传输和高带宽互联（如 NVLink），通过度离式处置这两个阶段，然而正在解码阶段并不需要这些内存。推出专为长上下文工做负载设想的公用GPU Rubin CPX，英伟达之所以要正在Rubin GPU边上再配一块Rubin CPX GPU，配备高贵的HBM内存，据悉，英伟达也会零丁出售一整个机架的CPX芯片，从而生成首个输出token。能比当前旗舰机架GB300 NVL72超出跨越最多6.5倍。英伟达估量，英伟达引见称，同时单个机架就能供给100TB的高速内存和1.7PB/s的内存带宽。天然是为了显著提拔数据核心的算力效率——用户采办英伟达的芯片将能赔到更多的钱。因而，摆设价值1亿美元的新芯片，并针对性地优化计较取内存资本，将显著提拔算力的操纵率？

关闭

客户服务热线

0731-89729662

联系我们

在线客服

大约有20%的AI使用会“坐等”首个token

发布时间:2025-09-14 09:06