苹果发布了个多模态人工智能模型，名字叫manzano，把视觉理解跟图像生成这两件事儿给合到一块了。

苹果公司这次发布了个多模态人工智能模型，名字叫Manzano，把视觉理解跟图像生成这两件事儿给合到一块了。美国科技企业苹果公司最近发表了一篇论文，正式把这个叫“Manzano”的模型介绍给了全球人工智能研究界。这成果的创新主要体现在架构上，让模型既能理解图片，又能自己画图。这在计算机视觉和生成式AI交叉领域是个挺大的突破。以前做这种既懂看又会画的模型挺难的，关键是看和画处理的视觉信号不一样。像看图片是那种连续的、整体的信息流，跟人看视频一样；画图则是把一块块离散特征拼起来，像拼图一样。老的模型架构往往顾此失彼，要么看得懂画得差，要么画得好看得乱。Manzano这次的核心突破就是搞了个三段式的处理方式，还弄了个叫“混合视觉分词器”的东西。这个分词器把输入的视觉信息并行处理，同时生成两种表示：一种给理解任务用的连续表示，一种给生成任务用的离散表示。然后再用大型语言模型去预测和把握图片的语义内容。最后把这些经过调制的信息传给一个扩散解码器，就能把抽象概念变成具体的高清图片了。这样分路处理再协同输出的设计思路，让Manzano能在一个统一框架里比较独立地高效搞定理解和生成这两项任务。测试数据显示，Manzano处理那种复杂或者反直觉的指令时逻辑很强大，比如让它画一只鸟在大象下面飞这种空间逻辑不太对的图，它的表现跟OpenAI的GPT-4o这类先进模型差不多。研究团队还验证了模型从几亿到几百亿参数的不同版本都能扩展性能提升。虽然现在Manzano还在学术研究阶段没用到iPhone或者Mac上，但能看出苹果在AI基础能力上的战略方向和积累了。整合好理解和生成能力是往更通用、更自然的人机交互走的一步。这次发布不光是苹果展示技术成果，也反映了全球科技竞争都在往底层AI创新挤。通过解决多模态任务融合的难题，苹果给未来的智能编辑、创作和场景理解这些场景铺好了路。现在大家都讲究端侧AI和隐私保护，这种既能高效又能本地化部署的技术，说不定能帮苹果在接下来的设备竞争里筑个墙，让AI更深更无缝地融进咱们的生活里。