云天励飞发布未来三年大算力推理芯片路线图目标将百万Token推理成本大幅压降

当前，大模型技术的快速发展正在深刻改变人工智能产业格局。

然而，高昂的推理成本成为制约大模型应用规模化落地的关键瓶颈。

在这一背景下，云天励飞近日正式发布了面向未来三年的大算力芯片战略规划，明确提出通过技术创新和架构优化，实现推理成本的大幅下降，为大模型的普惠应用奠定基础。

云天励飞董事长兼CEO陈宁在战略发布会上指出，训练芯片与推理芯片在设计理念和优化方向上存在本质区别。

训练芯片更强调绝对算力规模和计算精度，对成本相对不敏感；而推理芯片的核心竞争力在于成本效率和经济性，关键指标是单位Token的边际成本与整体性价比。

这一认识反映了大模型产业发展的现实需求——当前制约应用落地的主要障碍已从技术可行性转向经济可行性。

基于这一判断，云天励飞提出了"训练追赶、推理超车"的五年发展策略。

在训练芯片领域，公司采取追赶策略，通过持续投入缩小与国际先进水平的差距；在推理芯片领域，公司则寄望于中国丰富的应用场景、完善的基础设施和开源生态优势，实现技术突破和产业超越。

这一战略选择充分考虑了中国芯片产业的现实条件和比较优势。

云天励飞CTO李爱军介绍了支撑这一战略的核心技术方案——基于PD分离架构的芯片设计理念。

该方案将大模型推理过程分为两个阶段：Prefill阶段（前缀填充）和Decode阶段（解码生成）。

针对这两个阶段的不同计算特征，公司规划了两类专用芯片：P芯片面向计算密集型需求，优化Prefill阶段的高算力要求；D芯片面向访存密集型需求，优化Decode阶段的高带宽需求。

这种分离设计能够更精准地匹配不同计算场景，提升整体效率。

在具体产品规划上，云天励飞制定了清晰的三年路线图。

第一年，公司将推出第一代超节点P芯片，针对百万级长上下文场景进行优化，算力水平对标英伟达Hopper架构。

第二年，公司将研发第一代超节点D芯片，聚焦低时延推理目标，算力水平对标Blackwell架构。

到2028年，公司计划推出第二代超节点D芯片，进一步优化毫秒级推理时延，算力水平有望看齐下一代Rubin架构。

这一循序渐进的规划既体现了技术发展的客观规律，也展现了公司的雄心壮志。

云天励飞的GPNPU架构是上述路线图的技术基础。

该架构具有四大核心亮点：首先，提供GPGPU级的通用编程能力，实现CUDA兼容，降低用户的模型迁移门槛，解决国产芯片"易用性"不足的痛点；其次，采用极致能效的NPU内核设计，深度优化推理效率和能效比；再次，引入3D Memory结构，获得更高带宽和更低访问时延；最后，采用"算力积木"架构，实现芯片的灵活扩展和组合。

这些技术创新的有机结合，使得云天励飞的芯片方案具有较强的竞争力。

从产业意义看，云天励飞的这一战略规划反映了中国芯片产业的新思路。

与其盲目追赶国际先进水平不同，公司选择在推理芯片领域集中突破，这既符合当前大模型产业的实际需求，也充分利用了中国的应用场景和生态优势。

如果这一战略能够成功实施，将有助于降低大模型应用的成本门槛，加速人工智能技术的普惠化进程。

同时，云天励飞的成本目标也值得关注。

公司计划在三年内将百万Tokens推理成本从当前水平降至"一分钱"，进而在五年内进一步降至"0.1分钱"。

这一目标的实现将从根本上改变大模型应用的经济学基础，使得更多企业和个人能够承受大模型服务的成本，推动人工智能从技术尝鲜走向生产力工具。

在全球芯片产业格局深度调整的当下，云天励飞的战略布局既是对技术瓶颈的攻坚，亦是对市场机遇的前瞻卡位。

其“训练追赶、推理超车”的差异化路径，不仅为国产芯片突破提供了新思路，更揭示出人工智能从实验室走向千行百业的关键突破口——唯有将技术成本压降至“水电煤”级基础设施标准，才能真正释放其改造实体经济的潜能。

这场围绕算力效率的竞赛，或将重塑未来五年全球产业竞争的逻辑。

云天励飞发布未来三年大算力推理芯片路线图 目标将百万Token推理成本大幅压降

云天励飞发布未来三年大算力推理芯片路线图目标将百万Token推理成本大幅压降