OpenAI发布通用模型GPT-5.4实现原生电脑操作能力推动人工智能从对话走向执行

一、技术突破：从"回答"到"执行"的范式转变人工智能技术的演进，长期以来以提升语言理解与内容生成能力为主轴；然而，随着各类应用场景对自动化程度要求的持续提高，仅能输出文字答案的模型已难以满足复杂工作流程的实际需求。此次美国开放人工智能研究中心发布的新一代通用模型，技术路径上作出重要调整，将原生计算机操作能力纳入模型核心功能体系，使其具备在真实桌面环境中自主完成任务的能力。该模型可通过分析屏幕截图，自主生成鼠标与键盘操作指令，驱动智能体跨越不同应用程序完成连续性任务，涵盖电子表格制作、文档编辑、演示文稿设计及邮件发送等典型办公场景。在独立测试中，其在真实桌面环境下的任务完成成功率达到75%，略高于人类操作员的平均水平。该数据表明，人工智能在特定结构化任务中的执行可靠性已具备实用价值。二、能力升级：多维度技术指标全面提升除计算机操作能力外，该模型在推理深度、编程效率及长文本处理等核心技术维度均有显著进步。在编程领域，新模型继承并强化了前代代码生成模型的技术积累，对复杂代码逻辑的理解与生成能力继续提升。在长文本处理上，模型的事实准确性较前代版本有明显改善，多项专业评测中的表现超越同类产品，被认为是该机构迄今事实性准确率最高的模型之一。此次发布同步推出两个差异化版本，以分层方式满足不同用户群体的需求。其中，面向极高复杂度任务设计的版本，主要适用于科研、金融等需要处理海量数据的专业领域；另一版本则新增"思考计划前置"功能，在生成最终答案前向用户展示推理路径与执行计划，允许用户实时介入并调整任务方向，有效降低人机协作中的沟通成本。三、开放策略：分级授权推动商业落地在访问权限与商业化部署上，该机构采取分级开放策略。具备推理展示功能的版本已向付费用户开放，并将逐步替代上一代同类模型，后者将作为过渡性遗留版本保留至明年年中。面向高端用户的专业版本则向企业与教育机构用户开放，支持管理员通过后台设置启用早期访问权限。在技术接口层面，模型通过专属标识符支持应用程序编程接口调用，上下文处理窗口扩展至100万个词元，为需要跨步骤、长周期执行的复杂任务提供了基础技术支撑。这一参数规模提升，意味着模型在处理大型项目文档、多轮复杂对话及跨系统数据整合等场景时，具备更强的连贯性与稳定性。四、行业影响：自主执行能力引发广泛关注

人工智能技术的此重大突破，不仅展示了科技创新的无限可能，更为人类社会生产力提升提供了新思路；在享受技术红利的同时，如何平衡创新发展与风险防控，将成为业界和监管机构需要面对的重要课题。

OpenAI发布通用模型GPT-5.4实现原生电脑操作能力 推动人工智能从对话走向执行

OpenAI发布通用模型GPT-5.4实现原生电脑操作能力推动人工智能从对话走向执行