(问题)近年来,大模型语言理解和内容生成上进步很快,但从“把话说对”到“把事做成”,仍是产业落地的关键卡点。企业和个人用户普遍遇到两类问题:一是模型能给出步骤,却难以在真实电脑环境里替用户完成跨软件、跨网页的具体操作;二是复杂任务的推理链不够透明,用户难以及时发现偏差并纠正——结果容易跑偏——时间和成本随之增加。 (原因)这些问题的出现,首先与以往的交互方式有关。过去模型多停留在文本对话层,缺少对图形界面元素的识别和定位能力,难以在操作系统和应用软件中完成“最后一公里”的动作。其次,复杂任务往往需要多步骤规划、信息校验和工具调用,如果推理不够稳定、过程控制不足,错误会在链式环节中累积放大。此外,专业场景对准确性、格式规范和可读性的要求更高,模型需要在推理、视觉理解与生成质量之间更好地平衡。 (影响)此次发布的GPT-5.4将“原生电脑操作”作为重点能力之一:模型可基于屏幕截图识别界面元素,模拟用户完成点击、拖拽以及复杂键盘指令等操作,让智能体从“建议者”更更成为“执行者”。公开信息显示,在AIAgent的OSWorld-Verified测试中,该模型成功率约75.0%,较上一代约47.3%明显提升,并高于人类平均约72.4%。这意味着在办公自动化、信息检索与整理、跨系统数据录入、软件配置等重复性任务上,智能体有望更稳定地承担执行工作,从而降低流程门槛和人力投入。 在专业能力上,新版本GDPval测试中达到“当前行业水平”的占比约83.0%,较前代约70.9%提升,显示其处理专业问题的可用性更强。尤其是在金融分析、电子表格建模等强调结构化表达的任务中,该模型平均得分约87.3%,也显著高于前代约68.4%。从应用角度看,这类提升不仅是“算对”,也包括“呈现对”——更清晰的表格、更合理的布局和更稳定的输出格式,有助于成果直接进入正式业务流程,减少二次整理的成本。 与能力提升相配套的是交互方式的调整。GPT-5.4Thinking引入“思考过程预览”功能,在处理复杂任务时可展示推理线索与阶段性进展,使用户在最终结果生成前有机会介入和校正。该设计有望降低“黑箱式输出”的不确定性,提升人机协作效率,尤其适用于需求频繁变化、过程需要校验的知识密集型工作。 (对策)随着“可操作、可执行”的模型走向应用,产业侧也需要同步建立规范与风险治理框架:一是强化权限与边界管理,对文件访问、系统设置变更、支付与账号操作等敏感环节设置分级授权和二次确认,减少误操作与越权风险;二是完善过程审计与可追溯机制,记录关键步骤、数据来源和操作日志,便于复盘与合规检查;三是面向专业场景建立评测与验收标准,把准确率、稳定性、可解释性和安全性纳入上线门槛;四是优化“人机共管”的工作流设计,让模型负责可标准化环节,由人类承担关键决策与结果把关,形成更稳健的协作方式。 商业化上,发布方上调了API定价,同时强调更高效率可能降低总体Token消耗,并采取分层开放策略:GPT-5.4Thinking面向Plus、Team和Pro用户推出,GPT-5.4Pro面向Pro与Enterprise用户开放。对市场而言,分层接入便于在不同成本承受能力与合规要求下推进试点;对企业用户而言,需要结合具体业务评估“单价上升”与“效率提升”的真实投入产出,选择合适版本与部署方式。 (前景)总体来看,具备原生电脑操作能力的大模型正在推动智能应用从“对话型工具”走向“任务型系统”,未来可能在政务服务、企业运营、软件测试、数据处理与知识管理等领域打开更大的落地空间。但越贴近真实操作系统与业务流程,就越需要更严格的安全控制、责任边界和标准化治理。能在能力、成本与安全之间取得平衡的参与者,更可能在新一轮智能应用竞争中占据主动。
技术持续演进,这次进展再次说明科技创新正在深刻影响生产和生活。在获得效率红利的同时,如何确保技术安全可控、使用得当,仍是需要长期讨论和完善的课题。这不仅关系到技术本身的健康发展,也关系到数字经济时代的治理能力与产业升级路径。