苹果这回的研究论文，把微调qwen3-coder给玩明白了，直接把生成ui的能力给干翻了gpt

苹果这回的研究论文，把微调Qwen3-Coder给玩明白了，直接把生成UI的能力给干翻了GPT-5。这事儿我就给你捋捋，挺有意思的。研究主要是想看看，怎么把生成式AI和做App界面这个流程结合得更高效，是苹果UICoder团队搞出来的。文章里有个说法挺值得琢磨，他们说现在的主流方法RLHF不太适合UI设计。之前大家用的那种“点赞/点踩”或者排排序的反馈方式，其实挺鸡肋。AI只知道哪个好哪个坏，不知道为啥好为啥坏，更不懂怎么改才更顺眼。为了解决这个问题，苹果直接找了21位经验丰富的设计师来干活。这不是简单地让大家给个分了，而是让设计师直接上手写评论、画草图甚至改代码。团队收集了1460条这种深度的注释，把修改前的样子和修改后的对比数据输进了一个奖励模型里。这个模型学会了像人一样看UI好不好看、好不好用。结果让人挺意外的。光是用了181个专家画的草图去微调这个模型，表现就最好。它的效果直接把GPT-5给盖过去了。这说明有时候大模型参数多不一定就厉害，精准的专家反馈更重要。另外研究还发现一个事儿：审美这东西真的很主观。在单纯让大家排排序的实验里，研究人员和设计师的观点一致率只有49.2%，基本跟扔硬币没两样。所以以后的人机协作可能得变一变了。咱们不能老是给机器发指令，而是要展示给它看怎么改才好。毕竟机器要是光听指令听不懂为啥这么改不行啊？这篇论文是用IT之家消息和9to5Mac的文章写出来的。