英伟达出手了,这回大手笔投了迈威尔科技,目的很明确,就是要把自家的AI基础设施给补强。这事儿可以看成是眼下计算架构在变道的关键时刻。毕竟现在大家都在说从通用计算往专用计算转,关键就看数据处理、存储还有网络这几块儿能不能高效协作。迈威尔在高速网络芯片上的功夫挺深,正好补上了高性能计算里带宽不够、延迟大的短板。数据在服务器里头或者不同服务器之间跑得慢,分布式任务肯定就拖后腿。做人工智能训练,模型参数大得吓人,得频繁在几千个计算单元里来回传数据,网络延迟降下来了,训练的时间自然也就短了。 这一合作其实是整个行业的一个大趋势。以前大家只盯着处理器算力猛加,现在大家更关心系统里头的数据怎么动得更快、更省电。以前那种模式下的浪费可以忽略不计,但到了大规模并行的场景里,数据移动花的钱可能比真正算的钱还多。想要提高整体性能,就得优化这条数据路。包括用更先进的协议和更高效的网络接口控制器。从硬件协同的角度看,英伟达的GPU还得跟CPU、存储还有别的GPU配合默契才行。迈威尔提供的那种支持高带宽的以太网控制器和适配器,能让GPU集群之间的传输少等一会儿。这种协同不是单纯换个硬件就能行的,主要是要把系统里的那些堵点给通了,让高性能组件几乎不用等就能干活。 再看看对产业链的影响,这种战略投资一般能把技术标准推得更快、生态系统也更完善。一旦核心平台跟专业芯片供应商拧成一股绳,下游的服务器厂商和数据中心运营商在装机的时候就有现成的好方案能用。这就省事多了,系统集成也没那么复杂了,推动高性能基础设施往标准化、高效化的方向走。影响不止是一家公司的事儿,而是整个供给结构都在变。 说到技术演进的长期意义,核心就是通过加强关键子系统来保住竞争力。做AI基础设施光看峰值算力没用,得看干活儿的端到端效率咋样。强化网络子系统就是为了提升这效率。这就意味着以后搞创新不光是盯着一个指标猛冲了,更看重各个子系统能不能平衡配合好。 从产业发展的角度看,这两家合作是对现在计算模式缺陷的一种回应。模型越来越大,光靠堆处理器数量肯定不行了,通信开销会暴涨。现在投钱搞底层网络技术就是为了将来的需求铺路。这种布局就是为了保证以后的计算架构还能扛得住下一代应用对数据吞吐量和协同计算的要求,等到以后更复杂庞大的活儿来了它才真管用。