嘿,听说苹果出了个挺有意思的研究,把181个设计师手绘的草图交给了Qwen3-Coder,这模型在生成App界面上就像换了个人似的,能力直接逆袭了GPT-5。科技媒体9to5Mac最近扒出来这事儿,说苹果这次是想把生成式AI给用到了App开发里头。你看他们UICoder团队发的论文,主要就是琢磨怎么让AI更顺畅地融进UI设计流程里去。 现在很多做AI的都在用那种“人类反馈强化学习”,也就是RLHF,说白了就是让大家给AI的结果点个赞或者踩一脚。可这种做法其实挺有问题的,因为设计这事哪有这么简单,光说个好或者不好根本没用。AI连哪儿不好都不知道,更别提怎么改了。苹果为了解决这个问题,找来了21个经验丰富的专业设计师做实验。 跟以前那种评分的老路子不一样,这次设计师是直接上手画草图、写评论甚至改代码来优化界面的。团队收集了1460条这种深度的反馈意见,把修改前后的对比数据都扔给一个奖励模型去学习。这模型学会了用视觉和语言来判断UI好不好用、好不好看。 最牛的是数据显示,只要有181个草图注释来微调一下,这个Qwen3-Coder的表现就把GPT-5给打败了。研究团队觉得这事儿证明了一个道理:给AI看专家级的“少而精”的反馈,小参数的模型在特定领域里反而能比大模型更强。 不过这里面还有个挺有意思的现象:审美这东西太主观了。在纯粹的排序任务里,研究人员跟设计师的看法一致率只有49.2%,这概率跟扔硬币差不多。看来以后设计师跟AI一起工作的时候,光靠口头描述或者简单的评分可能不太够劲,“展示而不是告知”才是人机协作的核心啊。