文科视角破解AI终极考验 专家提出"造字测试"评估通用人工智能真实水平

问题——如何判断智能是否真正“理解”并具备通用能力,长期以来一直是人工智能研究与治理的核心议题。传统以“能否用语言迷惑人类”为代表的测试路径,强调交互与表达,但实践中也暴露出局限:模型可能依靠统计关联生成流畅回答,却未必具备稳定的概念结构、社会协作能力以及长期一致的知识体系。面对此挑战,王献华提出,应把目光投向人类文明中最具标志性的能力之一——文字的发明及其制度化使用,把它作为检验通用智能的重要关卡。 原因——为何以“造字”作为测试切口?逻辑在于:文字并非纯粹的符号游戏,而是由社会分工、交易记账、权威认证、知识传承等复杂需求共同推动形成的产物。王献华结合楔形文字起源研究指出,人类早期文字并非凭空出现,而是在三类技术—制度线索相互交织中逐步演进:一是用于计数与记账的陶筹系统,二是用于确认归属与建立信任的印章系统,三是伴随资源管理发展出的多套数学计数系统。换言之,文字的诞生本质上是一套解决“如何在社会中可靠记录并传递信息”的综合方案,集中反映了抽象能力、工具创造与制度协同。若一种智能体能在相似压力与约束下,自主形成稳定、可扩展、可学习、可共享的符号体系,才更接近人类意义上的通用智能。 影响——这一思路促使外界重新审视智能评估的尺度:从侧重“对答表现”,转向考察“社会性能力与制度性产出”。一上,它把评估重点放长期一致性、跨场景泛化、群体协作与规范形成等更难靠短期技巧掩饰的能力上;另一上,也提醒公众,智能的关键不只是能否给出漂亮的语言输出,更于能否在复杂环境中自洽地产生概念、建立规则,并形成可被他者学习与验证的共同符号。对学术界而言,这有助于推动文理交叉:语言学、考古学、认知科学、计算机科学等领域可围绕“符号如何产生并被制度化”形成新的共同议题。对产业界与治理部门而言,这类评估设想也可能为未来更细致的能力分级与风险研判提供补充视角。 对策——围绕“社会性虚拟造字测试”的落地,业内仍需在方法上更细化。其一,构建更贴近早期文明压力的任务环境:纳入交易与资源分配、劳动分工与身份差异、权威与信用机制、冲突与协商等情境,让符号体系的产生具有真实动因,而非被动“答题”。其二,明确评价指标:不仅看能否“发明符号”,更要看符号体系是否具备一致的语义映射、可组合的语法规则、可扩展的抽象层级,以及能否在跨代际或跨群体中传承。其三,设置反作弊机制:通过长期运行、随机事件注入、跨主体交互与外部验证,检验该体系是否真正服务于社会协作,而非短期拟合。其四,引入多学科评审:由计算、语言、历史与社会科学等专家共同制定可验证、可复现的标准,避免把复杂的文明现象压缩为单一分数。 前景——从更长远看,以文明生成过程为参照的评估路径,可能成为通用人工智能研究的重要补充方向。随着系统在多代理交互、长期记忆与工具使用上持续发展,评估也需要从静态答卷转向动态生态,从个体能力转向群体协作,从瞬时输出转向制度与知识的积累。文字起源研究所揭示的“从计数工具到符号制度”的演进链条,为理解智能的“可验证成长”提供了独特参照。未来,若对应的测试在学界形成共识并逐步标准化,有望与现有测评体系互补:既关注表达能力,也检验结构化知识、规则形成与社会适配能力,从而更全面地把握通用智能的真实边界与风险外溢点。

当现代科技与古老文明在学术前沿相遇,王献华教授的探索带来一种启示:人工智能的发展也许需要更多“回头看”的视角。在追逐技术突破的同时,重新审视人类认知演进的路径,不仅是在追问智能的本质,也是在寻找可传承、可验证创新方法。这场跨越时空的学术对话,正在为人工智能发展打开一条更具人文关照的新路径。