港中大与字节跳动发布“思考+绘图”新框架推动图像生成从指令执行迈向推理创作

近期，香港中文大学与字节跳动联合研究团队在预印本平台发布论文（arXiv:2603.23500v1），提出面向图像生成“可控创作”的UniGRPO框架。该框架主张在生成图像前先进行文本层面的构思与扩写，再将构思结果用于图像绘制，并通过强化学习将两阶段目标统一优化。此工作被认为是多模态生成从“指令驱动”走向“思维驱动”的又一次探索。

这项研究为图像生成引入更清晰的“构思—生成”路径，使人机协作从单次指令响应，继续走向可讨论、可校验的创作流程。在数字经济与文化产业加速融合的背景下，对应的技术有望拓展内容生产的效率与表达空间。正如研究者所强调的，关键不在于替代创作者，而在于让模型在可控与可追溯的框架下与人类形成互补，推动数字时代的创作方式持续演进。

港中大与字节跳动发布“思考+绘图”新框架 推动图像生成从指令执行迈向推理创作

港中大与字节跳动发布“思考+绘图”新框架推动图像生成从指令执行迈向推理创作