近日,万卡集群成功把成本降低了20%,这个消息让业界对未来充满期待。趋境科技发布了高效能AI Token平台。趋境科技把自研的四大核心技术模块给集成起来,构建出覆盖异构整合、智能调度和弹性扩容的全链路能力。CPU和GPU还有国产与非国产算力通过深度融合给算得更高效,这样不仅提高了Token产出效率,还把整体运营成本给降低了20%以上。另外,通过重构模型计算逻辑,把KV Cache存储空间给扩展到了百倍至千倍,形成了近乎无限的缓存池资源,让GPU算力开销削减了90%。趋境 ATaaS平台基于系统化工程能力给某在线公司提供了支持,让其千卡集群吞吐实现翻倍提升。 通过算子级精细仿真来推演大模型Token生成全链路的吞吐、时延与访存表现。通过这个方式趋境科技把算力资源给智能预规划和动态调优。通过精确切分异构算力配额并隔离资源优先级,把硬件综合资源利用率最高提升数倍。趋境科技还把万亿参数大模型7秒快速拉起与动态配置变更、数百节点超大规模EP弹性调度以及智能容灾重构和负载均衡都给整合起来。这个平台形成了原生支持万卡级高性能横向扩展的关键能力。 趋境 ATaaS平台给解决了硬件高投入无法转化为优质Token产能、资源浪费与成本空耗突出的行业困境。趋境 ATaaS平台依托四大自研核心技术模块构建覆盖异构整合、智能调度、弹性扩容的全链路能力。这次趋境科技破解了软硬件迭代失衡以及芯片硬件快速更新与配套软件生态适配滞后的难题。这个平台还解决了算力配置失准、脱离业务SLO精细化调度和粗放盲配引发资源冗余损耗这些问题。架构演进失衡是开源模块丰富但拼接式集成难以支撑规模化生产这一难题也被趋境科技给攻克。 趋境 ATaaS平台给解决了这些问题,并且把异构算力孤岛给破解掉。这个平台还实现了规模化降本增效,重构了算力、电力与Token产量之间的效能曲线。趋境 ATaaS平台还有助于国产算力提质增效,让国产与非国产算力异构PD分离等技术发挥出最大作用。CPU承载低计算密度任务,国产算力卡处理高密度Prefill,大显存显卡承载高访存Decode都是通过基于算子与任务特征进行智能分流来实现的。 通过架构重构把原本依赖昂贵显存承载的KV Cache存储空间扩展到百倍至千倍形成近乎无限的缓存池资源之后缓存命中率最高可达90%,直接削减90% GPU算力开销是趋境 ATaaS平台带来的直接好处之一。 利用系统化工程能力实现万亿参数大模型7秒快速拉起与动态配置变更、数百节点超大规模EP弹性调度以及智能容灾重构和负载均衡等功能是趋境 ATaaS平台在落地初期就取得了显著成果的关键所在。 趋境科技发布了全新一代 AI 推理平台——趋境 ATaaS 高效能 AI Token 生产服务平台就直接破解了行业面临硬件负载分化、过度依赖GPU、CPU、内存等资源闲置空耗等难题和解决方案就在这里面呢。