苹果出了个挺有意思的研究，把181个设计师手绘的草图交给了qwen3-coder，这模型在生成app 界面

嘿，听说苹果出了个挺有意思的研究，把181个设计师手绘的草图交给了Qwen3-Coder，这模型在生成App界面上就像换了个人似的，能力直接逆袭了GPT-5。科技媒体9to5Mac最近扒出来这事儿，说苹果这次是想把生成式AI给用到了App开发里头。你看他们UICoder团队发的论文，主要就是琢磨怎么让AI更顺畅地融进UI设计流程里去。现在很多做AI的都在用那种“人类反馈强化学习”，也就是RLHF，说白了就是让大家给AI的结果点个赞或者踩一脚。可这种做法其实挺有问题的，因为设计这事哪有这么简单，光说个好或者不好根本没用。AI连哪儿不好都不知道，更别提怎么改了。苹果为了解决这个问题，找来了21个经验丰富的专业设计师做实验。跟以前那种评分的老路子不一样，这次设计师是直接上手画草图、写评论甚至改代码来优化界面的。团队收集了1460条这种深度的反馈意见，把修改前后的对比数据都扔给一个奖励模型去学习。这模型学会了用视觉和语言来判断UI好不好用、好不好看。最牛的是数据显示，只要有181个草图注释来微调一下，这个Qwen3-Coder的表现就把GPT-5给打败了。研究团队觉得这事儿证明了一个道理：给AI看专家级的“少而精”的反馈，小参数的模型在特定领域里反而能比大模型更强。不过这里面还有个挺有意思的现象：审美这东西太主观了。在纯粹的排序任务里，研究人员跟设计师的看法一致率只有49.2%，这概率跟扔硬币差不多。看来以后设计师跟AI一起工作的时候，光靠口头描述或者简单的评分可能不太够劲，“展示而不是告知”才是人机协作的核心啊。