英伟达CEO黄仁勋：Token是AI时代的核心要素，CUDA架构20年推动计算变革

问题：生成式应用快速普及，算力和数据处理成为行业共同面临的瓶颈。随着大模型训练、推理和多模态应用的加速落地，计算任务正从传统CPU为中心转向更强调并行计算和高吞吐的架构。黄仁勋GTC开幕演讲中将“词元”（Token）定义为新一代智能系统的基础单位，强调无论是文本、图像还是音频信息，进入模型计算流程后都需要被标准化为可计算的“最小单元”，其处理效率直接影响应用响应速度、成本和用户体验。原因：需求爆发带来了“算力密度”和“能效比”的双重压力。大模型推理已从实验阶段走向大规模在线服务，单位时间内需要处理的词元数量持续增长，倒逼基础设施在吞吐、延迟和功耗之间寻找更优解。同时，技术发展进入“后摩尔时代”，单纯依赖晶体管微缩带来的性能提升逐渐放缓，行业转而依赖架构创新、软件优化和异构计算协同来释放性能。黄仁勋以CUDA诞生20周年为例指出，加速计算的关键不仅在于硬件迭代，更在于通过软件生态将并行能力转化为实际生产力。自2006年推广以来，CUDA已形成涵盖开发工具、算法库和行业框架的完整体系，推动GPU从图形处理器发展为通用计算基础设施。影响：加速计算平台化趋势继续强化，云端和行业应用加速向“可复用的软件库”集中。会上提到的cuDF和cuVS分别针对结构化和非结构化数据处理：在结构化数据处理中，通过GPU并行化和算子优化提升效率；在向量检索、特征提取等非结构化数据处理中，通过加速计算缩短数据准备和查询时间。以Snap为例，引入有关数据加速能力后，其日常数据处理成本显著下降，并能快速完成大规模数据分析，从而将更多资源投入产品迭代和业务创新。这个变化表明，模型能力的提升固然重要，但能否以合理成本高效处理数据和词元，正成为竞争的关键分水岭。对策：围绕“算力—数据—应用”全链条提效，行业需从三上发力。一是完善开源与标准化，降低开发门槛和迁移成本。例如，GTC展示的开源项目OpenClaw致力于在本地设备上快速部署“始终在线”的专属助手，将能力从云端延伸至边缘，缓解带宽、时延和成本压力。二是强化隐私与安全的工程化落地。针对个人和企业场景，数据本地化处理可降低敏感信息泄露风险，但也对终端算力、模型压缩和安全隔离提出更高要求。三是推动能效与绿色算力。算力扩张带来能耗挑战，未来竞争不仅追求“更快”，还需“更省”，需在芯片架构、调度策略、算法优化和数据管线等实现系统性改进。前景：从GTC释放的信息来看，加速计算正从单一硬件优势转向“软硬协同+生态平台”的综合能力竞争，词元吞吐、数据处理和向量计算将成为衡量基础设施的重要指标。随着更多行业将智能能力嵌入搜索、推荐、办公、客服和内容生产等领域，算力平台的服务形态将进一步分层：云端负责大规模训练和通用推理，边缘和终端则承担隐私敏感、低时延和个性化任务。可以预见，围绕数据加速库、开发工具链和行业框架的生态建设，将在未来持续影响全球智能产业的投入方向和竞争格局。

CUDA架构二十年的发展见证了加速计算从边缘走向主流的历程。在人工智能快速发展的今天，词元作为生成式AI的基本单位，其重要性日益凸显。英伟达通过持续的技术创新和生态建设，不仅推动了计算性能的跨越式提升，也为全球数字经济发展提供了坚实支撑。随着AI应用的深入拓展，加速计算技术的价值将深入释放，成为驱动产业升级和社会进步的重要力量。