软银和amd 联手，打算通过分区技术让ai跑得更快

软银和AMD联手，打算通过分区技术让AI跑得更快。他们搞出了个叫Orchestrator的新调度器，能把AMD Instinct这系列显卡里的单个物理GPU切开，变成好几个独立的小逻辑设备。这种做法主要是为了让GPU资源用得更顺手，特别是在数据中心里。因为现在的AI任务五花八门，有时候需要大算力，有时候又只要小点的模型。AMD Instinct的显卡自带分区功能，能从最大的SPX模式一直切到八个CPX的小实例。每个实例都能独立用计算核心和HBM内存，硬件上是彻底隔开的。这样就能保证不同任务抢资源的时候不打架，延迟也不会乱跳。以前一张卡只能干一个事，现在可以同时跑好几个任务了。小模型只要点资源就行，大模型则能霸占全部性能，这样整体利用率就上去了。现在大家都开始用小型语言模型（SLM）和中型语言模型（MLM）了。这种模型对峰值算力要求不高，主要怕卡顿、怕并发量大了不行。软银的这套调度系统专门为这种情况优化过，能看模型多大、有多少请求来动态分配资源。不像以前那样整个GPU都占着，不干活也浪费。虽然现在训练还是得靠英伟达那种高密度算力撑腰，但推理和边缘部署这块需求涨得飞快。 AMD Instinct显卡在内存和带宽上确实强，拿MI300X来说，192GB HBM3内存加上高带宽，在不少推理测试里都赶上甚至超过英伟达的H100了。虽然英伟达现在还霸占着大半市场份额，但AMD靠着软银的帮忙在某些领域开始有了转机。它的分区和灵活调度成了跟英伟达的主要区别。以后大家慢慢都用分区功能了，这事儿说不定会成行业的新标准。软银跟AMD这次合作算是给AMD Instinct做了个证明。尤其是处理中小型AI任务这块表现特别好。市场上的选择以后会更丰富了。不过英伟达的霸主地位短时间内还是稳的，接下来大家肯定都得在特定场景的优化上下功夫才行。