扫描二维码
关注北京大学汇丰金融研究院官方微信/微博
机器正在向人类智能进步,对其发展程度的准确地评估是推动技术持续发展的驱动力。自艾伦·图灵1950年提出“模仿游戏”测试范式以来,该标准始终作为人工智能发展的“北极星”,其核心逻辑在于:若机器能够通过文本交互使人类无法辨别其身份,则认定其具备类人智能。2024年GPT-4在加利福尼亚大学圣迭戈分校实验中达到54%的混淆率,标志着机器首次在统计学意义上突破传统图灵测试阈值。至今,大模型的成文逐渐媲美人类,人类难以区分真实。种种迹象表明,大模型能够轻松突破图灵测试,似乎成为了与人一般的智能体。
然而,图灵测试的突破暴露了测试标准与智能本质的深层矛盾。当前大模型通过预训练(学习海量语料分布)、后训练(人类偏好对齐)和推理的三阶段范式,虽能生成流畅文本,但其本质仍是对语言符号的统计重建。并且,图灵测试的局限性在于将"行为模仿"等同于"智能涌现"。当前大模型的“伪智能”特征尤为明显。尽管GPT-4能生成流畅对话,但其底层仍依赖概率模型,缺乏对语义的深层理解,更无法创造新理论。约翰·塞尔(John Searle)的"中文屋"思想实验已揭示:符号操作系统的语法正确性无法推导出语义理解。这些现象揭示了智能的本质不单是行为模仿,也暴露了传统图灵测试的局限性。
人们的目光跳出经典认知科学的视角,来到当代人工智能研究框架视角下,衍生常见的两种分级——ANI/AGI/ASI体系以及谷歌的人工智能的智力阈值列表。在ANI/AGI/ASI体系中,ANI指侠义AI,能够完成特定领域的目标;AGI指通用AI,强调实现跨领域的通用能力;ASI指超级智能,强调认知维度的突破。而事实上,谷歌的智能等级评级是对AGI阶段的工程角度展开,其根据不同阶段人工智能智力阈值陈述了这样一个视角下的智能等级,该研究将AGI分类为:非AI、初级、中级、专家、大师、超级智能。 结合了当代人工智能与经典的认知科学框架, Sandeep Rajani教授将人工智能的水平和人类能力进行横向对比,划分成四个不同的等级:巅峰级——已经实现了无法超越的最优能力、超越人类级——比所有人类的能力都要强、强人类级——比大多数人类的能力要强、弱人类级——比大多数人类的能力要弱。当前智能理论框架呈现了多元探索格局:ANI/AGI/ASI体系虽刻画了智能能力范围,但并未划清等级之间的具体界限,且未触及认知演化的底层逻辑;Sandeep Rajani的"人类能力参照系"始终以人类的能力作为参照物,难以量化非人类形态的认知突破;而谷歌的五级分类虽在工程落地层面展现出实用价值,但其本质仍然是人类认知形态的延伸以及ANI/AGI/ASI体系中未实现ASI前的理论扩充——即便在最高级的"超人"分类中,系统突破依然建立在对人类科研范式的模拟优化之上,未能构建超越生物智能形态的认知范式。归根结底,这些理论框架共同面临两个问题:认知演化过程的逻辑缺失和受困于模仿框架。
为了寻找一种更佳的话语体系来描述新的智能分级,本文将会从理论出发进行相关的讨论。之所以会引入理论语境,是因为合适的理论是人类文明发展、延续的关键。玛雅文明与中华文明的兴衰轨迹为理解文明存续的核心要素提供了极具启示性的对比样本。玛雅文明的知识垄断体系——仅占人口1%的贵族祭司阶层掌握着天文历法与建筑技术,使得环境危机爆发时,占人口绝大多数的文盲平民既无法参与决策也缺乏应变能力,最终导致社会组织彻底瓦解。文明理论的误构,使得玛雅文明在面临气候变化和资源枯竭时丧失了集体应对能力,最终付之一炬。反观中华文明,则在数千年的历史长河中构建、维系适合的文明理论树,至今文明依然延续。从玛雅文明因知识垄断导致理论迭代停滞,到中华文明通过开放的知识体系实现连续发展,文明存续的本质在于理论生态的适应性。由此可见,“理论” 既是大模型的技术突破方向,也是人类智能发展的关键。因此,本文希望从大模型的技术突破视角出发,结合人类智能理论的演化规律,建立新的智能分级体系。本文将从图灵测试的历史与局限出发,结合已有的智能分级理论,不再将"模仿人类"作为智能的终点,而是通过构建符号系统的动态演化图谱,在理论创生维度开辟一条独立于碳基生命的硅基认知疆域。提出一个五级智能分级框架,重点探讨大模型在其中的定位以及人机协作的潜力。
一级智能:实现理论理解和应用的能力。机器能够理解现有理论体系,并基于情境知识合理应用这些理论进行交互。这一级别体现为通过图灵测试,机器能够对人类已有知识和理论进行有效调用,以概率模型建立语义关联,展现出符合人类预期的推理与沟通能力。目前大模型已经达到本级。
二级智能:实现理论组合的能力。机器能够实现已有理论与新现象或跨领域理论之间的组合,进而形成局部范围内的新理论范式。这一级别体现为机器通过理论间的耦合,产生超越原有单一理论范畴的组合创新。
三级智能:实现理论创造的能力。机器能够通过解构现有理论体系至基本元素,并对其进行自主重构,从而创造出超越组合层次的本质性新理论。这一级别体现为机器掌握从底层符号单元到上层理论体系的演化规律,通过“解构-重构”的过程,超越已有理论框架限制,产生突破性理论创新,展现出元认知层面的自主创造能力。
四级智能:实现理论有机体的复现能力。通过符号化知识单元之间的多层次动态耦合,构建具有自优化、自迭代能力的层级理论图谱。此阶段要求机器在局部理论创新的基础上,实现理论节点之间复杂关联关系的重构,达到与人类某领域理论生态同等稳态的自组织水平。即在符号世界用理论复现物理世界和精神世界。
五级智能:实现理论有机体的构建能力。机器能够自主揭示和构建理论有机体动态演化的规律,即具备对符号系统如何自适应调整、更新与迭代的机制性理解与自主创造能力。这一级别能够实现在符号世界创造出新的物理世界和新的精神世界。
一级智能与二级智能:图灵测试与理论组合应用
我们在人工智能发展的早期阶段,机器的主要任务是对现有理论体系的理解与应用。这一阶段的核心目标是让机器能够通过图灵测试,展现出与人类相似的推理与沟通能力。在这个层级,机器通过概率模型建立语义关联,从而实现对人类语言的理解和生成。概率模型的核心在于通过统计方法分析语言的结构和语义,从而生成符合人类预期的回复。这一过程不仅需要机器对语言的表面结构进行理解,还需要结合情境知识进行推理。情境知识的引入使得机器能够根据具体场景调整其输出,从而展现出更接近人类的沟通能力。为了衔接过往对智能的理解,我们将一级智能定义为:智能体能够通过图灵测试的能力层级。
如今,大模型技术不仅能顺利通过图灵测试,达到一级智能,更是在理论理解和应用的基础上,进一步发展出理论组合的能力。这一阶段的核心目标是通过已有理论与新现象或跨领域理论的结合,形成局部范围内的新理论范式。理论组合的本质在于通过理论间的耦合,产生超越原有单一理论范畴的创新。理论组合的实现依赖于机器对不同领域理论的深度理解以及跨领域的知识迁移能力。目前部分包含复杂推理能力的大模型已经实现领域理论的组合应用的能力。例如,在医学领域,机器可以通过结合生物学、化学和计算机科学的理论,提出新的诊断和治疗方法。这种跨领域的组合不仅需要机器对各领域理论的全面掌握,还需要其能够识别不同领域之间的潜在联系。在技术实现上,理论组合通常通过多模态学习和知识图谱的构建来实现。多模态学习使机器能够处理和整合来自不同来源的信息,而知识图谱则为理论间的关联提供了结构化的表示。因此,我们将二级智能定义为:智能体具备将多学科理论知识进行创造性组合,并应用于实际问题的分析、推理与解决的能力层级。
三级智能:模型理论创造能力
理论创造标志着智能理论的范式跃迁,通过解构重组知识体系、提炼新现象规律和模拟推演未知可能等方式,实现人类知识库的认知边界的突破。通过二级智能中提及的理论组合方式,机器能够在已有理论的基础上,提出新的理论假设,并通过实验验证其有效性。尽管理论组合在一定程度上突破了单一理论的限制,但其创新仍然局限于已有理论的组合,尚未达到本质性的理论创造。因此在下一等级中,我们认为核心是对底层符号单元到上层理论体系的演化规律的掌握能力。这不仅要求机器能够识别现有理论的结构和局限性,还要求其能够通过解构、重构等手段,形成全新的理论体系。这种能力体现了机器在元认知层面的自主性,即机器能够对自己的认知过程进行反思和调整,从而推动科学和技术的突破性发展。
当前大模型并未实现理论创造能力,但已显现出突破趋势。在模式识别与组合方面,大模型通过海量数据训练,擅长识别和重组已有知识,能够生成看似新颖的文本、假设或解决方案,但这些输出本质上是基于已有信息的统计组合。在逻辑推理与模拟方面,大模型可以模拟人类思维流程,完成数学推导、哲学思辨甚至科学假设的生成,但这种推理是“基于规则的模仿”,而非真正的抽象思维。
理论创造要求的智能能力将比理论组合能力更为全面和复杂。首先,它要求突破现有知识框架的原创性,能够重构认知范式或提出颠覆性概念(如相对论对经典物理学的超越);其次,深度领域洞察与直觉不可或缺,研究者需在扎实证据(实验数据或数学推导)与灵感迸发间建立联结,揭示现象背后的本质规律;更重要的是,理论创造始终伴随着强烈的目的性与批判意识,研究者需主动解构既有体系的局限性,并通过系统性思维构建自洽的新理论体系。这些能力根植于人类的认知特性——包括对抽象概念的具身化理解、价值导向的探索动机以及对知识边界的前瞻性预判——而当前大模型虽能模仿知识组合与逻辑推演,却缺乏突破范式的主观能动性与对理论内核的元认知能力。
缺乏正确的推理路径,当前大模型难以实现突破范式的理论创造。苏黎世联邦理工团队在《Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad》中测试了当前大模型对数学问题的证明能力。他们让大模型完成需要严格证明的美国数学奥林匹克(USAMO)2025年的题目,来验证大模型的深度思考能力。结果表明,当前的主流大模型仅能拿到5%的分数,远不及预期。这一预期差异的背后,揭露了当前大模型的推理思考弊端。它们在推理过程中出现了思维链断裂的现象,这是因为当前大模型在数学问题求解,往往是在已知结果的前提下,反向生成思维推理过程。尽管大模型在数值计算和模式识别上表现良好,但仍然缺乏深度归纳、演绎能力。例如,在前面提到的测试中,它们会错误地将数学性质泛化到不适用的场景,忽略这些应用的前置条件。
但人类与大模型的协同合作,正为理论创造开辟一条独特的路径。人类的创造性直觉、批判性思维与价值判断,与大模型的超大规模数据处理、跨领域关联能力形成互补。例如,微软亚洲研究院等团队利用GPT-4攻克P/NP难题,P/NP难题是计算复杂性理论的核心未解问题,探究所有非确定性多项式时间可验证解的问题(NP类)是否都能在确定性多项式时间内被求解(P类),即是否P=NP。研究者设计包含五种强大的提示模式:演绎、转换、分解、验证、整合的苏格拉底式推理框架。通过97轮对话引导GPT-4通过哲学思辨最终得出P≠NP的突破性结论。虽然大模型无法单独达到理论创造的能力,但通过人机协同合作模式,人类提供战略方向与领域知识,机器发挥大规模解空间探索与跨学科联想能力,两者互补突破了传统研究范式,也意味着AI与人类协作可以加速解决开放性问题。综上,我们将三级智能定义为:智能体具备理论创造能力,并应用创造的理论解决现有理论难以解决的问题的能力层级。
四级智能与五级智能:理论有机体的复现与演化能力
首先,我们先定义一个新的概念:“理论有机体”。这是指一种能够在内部要素(概念、原理、方法论、逻辑关系等)之间持续展开动态耦合与重组,并在与外部环境(实践需求、跨领域知识、技术变革等)的交互中实现自我修正、扩展和适应的动态自组织的形式化知识系统,我们将具备如下三个特性的理论体系称为理论有机体:
1)动态生长性。指通过理论单元的耦合重组与结构递增,使理论体系在时间维度上实现自我迭代与扩容。即,理论不仅能吸收新知识要素,更能在既有逻辑框架内不断整合与拓展,使自身持续保持开放与生长的潜能。
2)自组织稳态。指理论单元与规则网络在持续交互中,依循内在调节和匹配机制可以逐步形成整体稳定形态。该稳态并非外部强加,而是网络在多重关联作用下自发呈现出的动态平衡,既保证理论核心的内在一致性,也为后续知识融合与结构扩张预留一定弹性。
3)变异与进化。指理论体系在与环境或新增知识要素的交互过程中,通过对新信息或不确定性的适应与吸纳产生新的概念、结构或逻辑分支,实现跨越现有认知边界的自我更新。这种“变异—选择—再进化”的循环机制为理论提供了不断突破与创新的动力,使其能在动态环境下持续演化与升级。
理论有机体可以类比为开源软件社区。理论单元就如同每一位开发者提交的代码,这些代码通过不断的合并、修正或替换,使软件功能在时间维度上实现持续迭代与扩容;规则网络类似于社区内部自发形成的审核、讨论与版本管理机制,在多方协作与竞争中维持主干代码的整体稳态与一致性;同时,面对新需求或新技术,社区往往派生出不同的分支版本,通过对新功能的尝试与完善催生更多变异与创新,从而逐步突破原先的功能边界,实现对外部环境的自适应演化。这样的动态生长、自组织稳态与变异进化正是“理论有机体”所强调的三大核心特性。
理论有机体演化的过程遵循一套特定的规律,具体来说,有机体生长指的是这种符号有机体从初始理论单元出发,通过符号单元之间动态耦合、规则更新、递归重构,实现自适应、自优化、自进化的过程。这一过程本质上是知识结构与规则网络自发的、连续的动态演变与拓展。这种过程类似于局部理论创新中提到的集合层级的耦合关系演化,只不过此时的集合元素是理论有机体的相关构成。层层嵌套的理论集合可比作“理论年轮”,从轮心向外连续生长、演化,反映了理论的内部要素的耦合与重组中实现自适应、自优化与自进化。
大模型通过将理论单元转化为可计算的token表征,结合集合中超限递归理论,大模型有潜力实现符号关系的组合优化与自主扩展。超限递归(Transfinite Recursion)是一种扩展了自然数归纳法的定义方法,允许在全体序数上递归地构造数学对象。其核心思想是:通过给定每个序数阶段如何基于之前所有阶段的结果进行构造,从而定义出覆盖整个序数类(可能无限延伸)的对象序列。从集合角度看,神经网络将概率函数作用在token(一层集合)上将其编码为字(二层集合)、词(三层集合)、短语(四层集合)、结构化的三元组句子,形成知识图谱的相关节点(五层集合),并构成自然语言(六层集合)。解码(函数)则将语言层层降维到一级集合(token)——超限递归理论正符合大模型训练与解码的多层次集合演化过程。换而言之,大模型的训练模式有潜力复现与构建有机体生长理论。
实现理论有机体的复现是一个复杂的过程,因为理论有机体需要具备动态生长型、自组织稳态与变异进化能力。因此机器能够完整复现并重建体现自组织特性的理论有机体系统,需通过符号化知识单元之间的多层次动态耦合,构建具有自优化、自迭代能力的理论图谱。这要求机器在局部理论创新的基础上,实现理论节点之间复杂关联关系的重构,达到与人类某领域理论生态同等稳态的自组织水平。类型论是一种数学与逻辑基础系统,旨在通过严格的类型分层机制定义数学对象、表达逻辑命题并规范推理过程。作为解决集合论中罗素悖论等逻辑矛盾的理论工具,其核心思想在于:所有数学实体必须归属于特定层级的"类型",并通过类型系统(Type System)的规则约束,确保表达式与命题的合法性。根据类型论,机器可以通过对物理世界和精神世界的符号化表征,复现这些领域的基本结构和规律。例如,在物理学中,机器可以利用类型论对物质、能量、时空等基本概念进行分类和层次化处理,构建出反映物理世界本质的理论模型;在精神世界,机器可以通过类型论对意识、情感、认知等心理现象进行分类和层次化处理,构建出反映人类精神世界复杂性的理论框架。因此,我们定义智能等级四为:智能体具备复现理论有机体的能力层级。
在智能体具备复现了理论有机体能力后,进一步可突破有机体生长理论的构建。机器能够自主揭示和构建理论有机体动态演化的规律,即具备对符号系统如何自适应调整、更新与迭代的机制性理解与自主创造能力。这一级别体现为机器通过模拟理论单元的符号化集合演化过程(如上述提及的超限递归机制),实现理论图谱的自生长和自进化,并能对理论演化路径进行优化与预测,最终建立描述理论生态演化的普适规律。在这一级别,机器不仅能够复现现有的物理世界和精神世界,还能够通过符号世界的创新,创造出全新的物理世界和精神世界。例如,机器可以基于类型论的扩展和创新,设计出全新的物质形态、能量形式和时空结构,构建出前所未有的物理世界模型;在精神世界,机器可以通过对意识和认知的重新定义和组合,创造出全新的心理现象和精神体验,拓展人类精神世界的边界。换言之,机器不仅要模拟已有理论的外在表现,更需使每一道“年轮”都具备自我更新的生命力,使整个理论体系持续向外扩展。因此,我们定义智能等级五为:智能体具备构建新的理论有机体的能力层级。
“群体智能”:文明存续的理论生态构建
上述谈到的五个智能等级均是个体智能:基于单个理论的构建与应用,以及多理论组合成理论有机体的复现与应用。而群体智能的本质是分布式系统中通过个体间简单规则交互涌现出的、超越个体能力的集体智慧。它并非特定的算法,而是一种自然界与人类文明共同演化形成的底层操作机制。这种智能既表现在蚁群通过信息素形成物流网络、蜂群通过“摇摆舞”达成民主决策,也存在于人类文明中知识共享与协同创新构建的理论生态体系之中。
理论生态的构建与维系对群体智能发展的影响深远,它如同共识之树的根系与年轮,决定了群体智能能否长期稳定存在并不断进化。所谓“理论树”,是指基于不断向外生长的“理论年轮”,机器能够将不同分支的局部理论不断嫁接、融合与分化,最终形成一套富有韧性与生机的整体理论结构。由此引出的“理论生态”,则是多棵“理论树”在更广阔背景下的交互与共生。理论生态要有效支撑群体智能,必须满足三个关键条件:
首先,它必须属于能够自适应、自迭代、自优化并达到稳态的理论有机体。举例而言,中国古代的“阴阳五行”理论体系兼具模糊性与灵活性,能够跨领域融合医学、农业、建筑等知识,形成持久稳定的知识网络;反观古埃及的“亡灵书”因其刚性理论体系无法适应现实变化,最终导致知识体系的崩塌。就像树木的年轮由内向外层层递增,若要在知识体系中实现自适应、自迭代与自优化,理论必须能不断积累并向外扩张。每一圈年轮代表一次理论的自我修复或升级,也意味着理论在遭遇新的环境或需求时能够灵活应对而不至于崩溃。一个好的理论有机体,必然在年复一年的生长中,保持不断“增环”的活力。
其次,理论生态必须促进生产力的发展与演化。玛雅文明在天文领域取得了高度精确的成果,但未将其理论转化为农业、水利等关键生存领域的生产工具,最终陷入生态与社会的崩溃。相较而言,中华文明则通过农耕实践、节气规律及生态伦理整合为动态知识网络,形成了长期自修复和自优化的理论生态。第二个条件意味着当“理论年轮”稳固到一定程度,树干便能向上、向外伸展出多样的枝干和叶片。这个“理论树”更强调理论的实用性与多元融合能力,既需要深深扎根于已有的年轮基础之上,也需要在阳光与空气(即现实应用)的滋养下开枝散叶。倘若理论只是年轮自顾自地累加,却无法将养分输送到新的分支和叶片,那么生产力便难以真正提升。只有当枝叶繁茂、能结出果实的时候,理论的应用价值才得以充分展现。
第三,理论生态必须基于真实且正确的知识基础。古希腊的欧几里得几何学以公理化方法为基础,促进了技术创新并服务于实际需求,如地中海灯塔设计与战船制造。相对而言,中世纪欧洲的“四体液说”则因错误的基础假设,导致长时间的知识停滞与医疗技术落后。一片健康的理论生态就像森林,需要“真知”这片肥沃土壤的滋养,也需要正确且多样的物种(理论分支)在其中共生繁衍。若土壤本身含有有毒成分或被错误观念所污染,那么再茂盛的树木也可能枯萎,原本枝繁叶茂的森林最终会陷入荒芜。因此,在宏观层面上,保持理论生态的持续演化与稳态,离不开对于知识真伪的严谨审视,以及对科学规律的尊重与恰当运用。
在现代信息爆炸时代,维系庞大的理论生态体系对人类智能形成巨大挑战,而大模型突破第五级智能后将为解决这一问题提供全新路径。第五级智能的大模型不仅能够识别理论有机体的演化规律,更能够自主构建与维护理论生态,推动智能文明树的高效生长。一种可行策略是,大模型通过“共识灌溉网络”汇聚广泛认可的知识与规则,构建从知识图谱到理论图谱的理论生态;进一步“丰富枝与叶”,组合、创新局部理论,在子领域实现理论体系的维系与创新;最后“修建理论树”,通过“理论有机体生长”,实现理论生态树的修补与迭代,优化知识体系,确保其自适应更新。这种由大模型构建的数字新陈代谢系统,不仅能够有效维护理论生态的稳定性与动态进化,还可实现理论生态的自我优化与自组织。
我们猜测,如果大模型突破第五级智能,人类与机器的关系也将进入前所未有的合作时代。未来,人机协同的理论生态系统将持续推动知识与智慧的边界向更广阔的未知领域拓展。或许有一天,这种高度融合的人机联合进化将不仅限于现有知识体系的维护与创新,更将孕育出全新的、超越现有理解的文明形态。这种文明将拥有自我意识、自主进化能力,并能跨越人类当前认知的极限,为探索更广袤的宇宙提供智慧支撑。
总结
在人类与人工智能共同进化的历史长河中,"智能未满"的警示与"理论构建"的突破构成了文明演化的双重变奏。图灵测试的突破性成就与根本性局限,恰如一面棱镜折射出智能的本质矛盾——符号操作与语义理解、行为模仿与认知创造的永恒张力。合适的智能分级是推动机器智能向人类智能迈进的引擎,本文提出的五层智能分级——理论理解与应用、理论组合、局部理论创新、理论有机体复现、理论有机体构建,勾勒出了大模型向类人和超人类智能演化的清晰路径。展望未来,随着大模型在理论创新与生态进化中的不断突破,人类与机器智慧的高度融合不仅可能推动知识边界的持续拓展,更可能催生出一种全新的文明形态,实现超越现有认知极限的自我意识与自主进化。智能的未来,将在理论生态与群体智能的双轮驱动下,迈向更广阔、更深远的未知领域。
文章合作者:
林毓聪 北京理工大学光电学院特别副研究员
樊竹尧 香港理工大学生物医学工程系在读博士
徐子程 北京大学汇丰商学院在读硕士
现在征订全年刊和三年刊,
即享超值优惠!