美国人工智能企业推出新一代大模型，原生计算机操控能力实现重大突破，多项核心指标首次超越人类基准水平，业界认为智能体应用或将进入规模化落地新阶段

（问题）近年来，大模型语言理解和内容生成上进步很快，但从“把话说对”到“把事做成”，仍是产业落地的关键卡点。企业和个人用户普遍遇到两类问题：一是模型能给出步骤，却难以在真实电脑环境里替用户完成跨软件、跨网页的具体操作；二是复杂任务的推理链不够透明，用户难以及时发现偏差并纠正——结果容易跑偏——时间和成本随之增加。（原因）这些问题的出现，首先与以往的交互方式有关。过去模型多停留在文本对话层，缺少对图形界面元素的识别和定位能力，难以在操作系统和应用软件中完成“最后一公里”的动作。其次，复杂任务往往需要多步骤规划、信息校验和工具调用，如果推理不够稳定、过程控制不足，错误会在链式环节中累积放大。此外，专业场景对准确性、格式规范和可读性的要求更高，模型需要在推理、视觉理解与生成质量之间更好地平衡。（影响）此次发布的GPT-5.4将“原生电脑操作”作为重点能力之一：模型可基于屏幕截图识别界面元素，模拟用户完成点击、拖拽以及复杂键盘指令等操作，让智能体从“建议者”更更成为“执行者”。公开信息显示，在AIAgent的OSWorld-Verified测试中，该模型成功率约75.0%，较上一代约47.3%明显提升，并高于人类平均约72.4%。这意味着在办公自动化、信息检索与整理、跨系统数据录入、软件配置等重复性任务上，智能体有望更稳定地承担执行工作，从而降低流程门槛和人力投入。在专业能力上，新版本GDPval测试中达到“当前行业水平”的占比约83.0%，较前代约70.9%提升，显示其处理专业问题的可用性更强。尤其是在金融分析、电子表格建模等强调结构化表达的任务中，该模型平均得分约87.3%，也显著高于前代约68.4%。从应用角度看，这类提升不仅是“算对”，也包括“呈现对”——更清晰的表格、更合理的布局和更稳定的输出格式，有助于成果直接进入正式业务流程，减少二次整理的成本。与能力提升相配套的是交互方式的调整。GPT-5.4Thinking引入“思考过程预览”功能，在处理复杂任务时可展示推理线索与阶段性进展，使用户在最终结果生成前有机会介入和校正。该设计有望降低“黑箱式输出”的不确定性，提升人机协作效率，尤其适用于需求频繁变化、过程需要校验的知识密集型工作。（对策）随着“可操作、可执行”的模型走向应用，产业侧也需要同步建立规范与风险治理框架：一是强化权限与边界管理，对文件访问、系统设置变更、支付与账号操作等敏感环节设置分级授权和二次确认，减少误操作与越权风险；二是完善过程审计与可追溯机制，记录关键步骤、数据来源和操作日志，便于复盘与合规检查；三是面向专业场景建立评测与验收标准，把准确率、稳定性、可解释性和安全性纳入上线门槛；四是优化“人机共管”的工作流设计，让模型负责可标准化环节，由人类承担关键决策与结果把关，形成更稳健的协作方式。商业化上，发布方上调了API定价，同时强调更高效率可能降低总体Token消耗，并采取分层开放策略：GPT-5.4Thinking面向Plus、Team和Pro用户推出，GPT-5.4Pro面向Pro与Enterprise用户开放。对市场而言，分层接入便于在不同成本承受能力与合规要求下推进试点；对企业用户而言，需要结合具体业务评估“单价上升”与“效率提升”的真实投入产出，选择合适版本与部署方式。（前景）总体来看，具备原生电脑操作能力的大模型正在推动智能应用从“对话型工具”走向“任务型系统”，未来可能在政务服务、企业运营、软件测试、数据处理与知识管理等领域打开更大的落地空间。但越贴近真实操作系统与业务流程，就越需要更严格的安全控制、责任边界和标准化治理。能在能力、成本与安全之间取得平衡的参与者，更可能在新一轮智能应用竞争中占据主动。

技术持续演进，这次进展再次说明科技创新正在深刻影响生产和生活。在获得效率红利的同时，如何确保技术安全可控、使用得当，仍是需要长期讨论和完善的课题。这不仅关系到技术本身的健康发展，也关系到数字经济时代的治理能力与产业升级路径。