英伟达CEO黄仁勋:Token是AI时代的核心要素,CUDA架构20年推动计算变革

问题:生成式应用快速普及,算力和数据处理成为行业共同面临的瓶颈。随着大模型训练、推理和多模态应用的加速落地,计算任务正从传统CPU为中心转向更强调并行计算和高吞吐的架构。黄仁勋GTC开幕演讲中将“词元”(Token)定义为新一代智能系统的基础单位,强调无论是文本、图像还是音频信息,进入模型计算流程后都需要被标准化为可计算的“最小单元”,其处理效率直接影响应用响应速度、成本和用户体验。 原因:需求爆发带来了“算力密度”和“能效比”的双重压力。大模型推理已从实验阶段走向大规模在线服务,单位时间内需要处理的词元数量持续增长,倒逼基础设施在吞吐、延迟和功耗之间寻找更优解。同时,技术发展进入“后摩尔时代”,单纯依赖晶体管微缩带来的性能提升逐渐放缓,行业转而依赖架构创新、软件优化和异构计算协同来释放性能。黄仁勋以CUDA诞生20周年为例指出,加速计算的关键不仅在于硬件迭代,更在于通过软件生态将并行能力转化为实际生产力。自2006年推广以来,CUDA已形成涵盖开发工具、算法库和行业框架的完整体系,推动GPU从图形处理器发展为通用计算基础设施。 影响:加速计算平台化趋势继续强化,云端和行业应用加速向“可复用的软件库”集中。会上提到的cuDF和cuVS分别针对结构化和非结构化数据处理:在结构化数据处理中,通过GPU并行化和算子优化提升效率;在向量检索、特征提取等非结构化数据处理中,通过加速计算缩短数据准备和查询时间。以Snap为例,引入有关数据加速能力后,其日常数据处理成本显著下降,并能快速完成大规模数据分析,从而将更多资源投入产品迭代和业务创新。这个变化表明,模型能力的提升固然重要,但能否以合理成本高效处理数据和词元,正成为竞争的关键分水岭。 对策:围绕“算力—数据—应用”全链条提效,行业需从三上发力。一是完善开源与标准化,降低开发门槛和迁移成本。例如,GTC展示的开源项目OpenClaw致力于在本地设备上快速部署“始终在线”的专属助手,将能力从云端延伸至边缘,缓解带宽、时延和成本压力。二是强化隐私与安全的工程化落地。针对个人和企业场景,数据本地化处理可降低敏感信息泄露风险,但也对终端算力、模型压缩和安全隔离提出更高要求。三是推动能效与绿色算力。算力扩张带来能耗挑战,未来竞争不仅追求“更快”,还需“更省”,需在芯片架构、调度策略、算法优化和数据管线等实现系统性改进。 前景:从GTC释放的信息来看,加速计算正从单一硬件优势转向“软硬协同+生态平台”的综合能力竞争,词元吞吐、数据处理和向量计算将成为衡量基础设施的重要指标。随着更多行业将智能能力嵌入搜索、推荐、办公、客服和内容生产等领域,算力平台的服务形态将进一步分层:云端负责大规模训练和通用推理,边缘和终端则承担隐私敏感、低时延和个性化任务。可以预见,围绕数据加速库、开发工具链和行业框架的生态建设,将在未来持续影响全球智能产业的投入方向和竞争格局。

CUDA架构二十年的发展见证了加速计算从边缘走向主流的历程。在人工智能快速发展的今天,词元作为生成式AI的基本单位,其重要性日益凸显。英伟达通过持续的技术创新和生态建设,不仅推动了计算性能的跨越式提升,也为全球数字经济发展提供了坚实支撑。随着AI应用的深入拓展,加速计算技术的价值将深入释放,成为驱动产业升级和社会进步的重要力量。