苹果这回的研究论文,把微调Qwen3-Coder给玩明白了,直接把生成UI的能力给干翻了GPT-5。这事儿我就给你捋捋,挺有意思的。研究主要是想看看,怎么把生成式AI和做App界面这个流程结合得更高效,是苹果UICoder团队搞出来的。文章里有个说法挺值得琢磨,他们说现在的主流方法RLHF不太适合UI设计。之前大家用的那种“点赞/点踩”或者排排序的反馈方式,其实挺鸡肋。AI只知道哪个好哪个坏,不知道为啥好为啥坏,更不懂怎么改才更顺眼。 为了解决这个问题,苹果直接找了21位经验丰富的设计师来干活。这不是简单地让大家给个分了,而是让设计师直接上手写评论、画草图甚至改代码。团队收集了1460条这种深度的注释,把修改前的样子和修改后的对比数据输进了一个奖励模型里。这个模型学会了像人一样看UI好不好看、好不好用。 结果让人挺意外的。光是用了181个专家画的草图去微调这个模型,表现就最好。它的效果直接把GPT-5给盖过去了。这说明有时候大模型参数多不一定就厉害,精准的专家反馈更重要。另外研究还发现一个事儿:审美这东西真的很主观。在单纯让大家排排序的实验里,研究人员和设计师的观点一致率只有49.2%,基本跟扔硬币没两样。 所以以后的人机协作可能得变一变了。咱们不能老是给机器发指令,而是要展示给它看怎么改才好。毕竟机器要是光听指令听不懂为啥这么改不行啊?这篇论文是用IT之家消息和9to5Mac的文章写出来的。