魔搭社区和招商银行一块儿搞了个大动作,弄出来个twinkle的金融大模型训练框架。

最近,中国的魔搭社区和招商银行一块儿搞了个大动作,弄出来个叫Twinkle的金融大模型训练框架。他们俩这回在AI基础设施这块下了血本,想把大模型训练里那些通用性不够、开发太难、成本太高的难题给解决掉。为了能让金融行业的AI研发更顺手,他们把复杂的训练流程给拆得干干净净,重新弄了个新架子。Twinkle现在已经在招行内部不少项目里用起来了,把做算法和搞部署的门槛都给降下来不少。这个Twinkle用的是CS架构,还有那种细粒度的组件设计,把数据加载、模型训练、强化学习这些环节都给拆成了一块块独立的模块。大家就像拼积木似的,想怎么搭就怎么搭,根本不用非得去研究底层代码。这种设计不光省事儿,还能支持多模型一起练、控制梯度这些高级功能,让搞研究的人能把更多心思花在算法本身上面。 在速度这块儿,Twinkle也是下了功夫的。它优化了计算和通信的效率,还能在不同的硬件上跑分布式训练。它不光支持LoRA池化技术,让大家能在同一个大模型上并行训练,还跟国产的算力平台深度配合好了,给大家提供现成的硬件支持。测试结果也挺亮眼,用它练各种大模型,速度和效果都跟行业里那些主流框架差不多。以后招商银行还会继续深挖Twinkle在金融业务里的玩法,试着搞更多定制化的流程。作为招行的重要技术底座,Twinkle也会给开源出来,给同行们当个样板。魔搭社区那边也说了,会继续攒模型和开发者资源,通过平台工具把更多像Twinkle这样的创新项目给推出来,一块儿把中国的大模型生态给搞起来。