软银和amd 联手,打算通过分区技术让ai跑得更快

软银和AMD联手,打算通过分区技术让AI跑得更快。他们搞出了个叫Orchestrator的新调度器,能把AMD Instinct这系列显卡里的单个物理GPU切开,变成好几个独立的小逻辑设备。这种做法主要是为了让GPU资源用得更顺手,特别是在数据中心里。因为现在的AI任务五花八门,有时候需要大算力,有时候又只要小点的模型。AMD Instinct的显卡自带分区功能,能从最大的SPX模式一直切到八个CPX的小实例。每个实例都能独立用计算核心和HBM内存,硬件上是彻底隔开的。这样就能保证不同任务抢资源的时候不打架,延迟也不会乱跳。以前一张卡只能干一个事,现在可以同时跑好几个任务了。小模型只要点资源就行,大模型则能霸占全部性能,这样整体利用率就上去了。 现在大家都开始用小型语言模型(SLM)和中型语言模型(MLM)了。这种模型对峰值算力要求不高,主要怕卡顿、怕并发量大了不行。软银的这套调度系统专门为这种情况优化过,能看模型多大、有多少请求来动态分配资源。不像以前那样整个GPU都占着,不干活也浪费。虽然现在训练还是得靠英伟达那种高密度算力撑腰,但推理和边缘部署这块需求涨得飞快。 AMD Instinct显卡在内存和带宽上确实强,拿MI300X来说,192GB HBM3内存加上高带宽,在不少推理测试里都赶上甚至超过英伟达的H100了。 虽然英伟达现在还霸占着大半市场份额,但AMD靠着软银的帮忙在某些领域开始有了转机。它的分区和灵活调度成了跟英伟达的主要区别。以后大家慢慢都用分区功能了,这事儿说不定会成行业的新标准。 软银跟AMD这次合作算是给AMD Instinct做了个证明。尤其是处理中小型AI任务这块表现特别好。市场上的选择以后会更丰富了。不过英伟达的霸主地位短时间内还是稳的,接下来大家肯定都得在特定场景的优化上下功夫才行。