扫描二维码
关注北京大学汇丰金融研究院官方微信/微博
引言:从数据瓶颈到生成转向
科学实验是现代知识体系的重要机制,其核心功能在于揭示规律与验证理论边界。自然观察、受控实验与计算仿真三种路径,虽方法不同,但均围绕“如何获得可信数据”这一根本问题展开,既服务于经验归纳,也支撑理论检验。
随着研究对象愈发复杂、变量维度上升、伦理约束增强,传统实验在变量穷尽、反事实模拟及可重复性方面日益受限。在这一背景下,人工智能技术展现出构造实验的新能力。借助生成模型、大型语言模型与多智能体平台,人工智能不仅能加工数据,更能生成嵌入理论结构、变量逻辑与语义语境的“虚拟实验环境”,使实验得以在虚拟空间中重建并演化。
然而,当实验过程从现实转向生成,其真实性判断标准也在发生转变。实验不再依赖直接观测,而更依赖结构建构与逻辑一致性;变量控制、因果推演与模型内演化成为新的评估核心。科学实验的边界由此从物理控制延伸至语义生成,从自然世界转向结构世界。理解这一转向的知识论意义(关于知识可靠性的讨论),需要回到传统实验逻辑的出发点,重新审视数据获取方式的结构前提与理论承载能力,为人工智能介入实验体系提供方法论定位(研究方法应该怎么定)。
传统实验路径的结构逻辑与方法困境
自然观察是科学实验最早的形式,也是人类长期与世界互动的基本方式。它不依赖人为操控,也不诉诸模型建构,而是以“世界自身的展开”作为知识生成的起点。天文学中的星体运行、人类学的田野调查、生态学对自然栖息地的持续观测,皆属此列。这种路径之所以有效,是因其保留了现象的复杂性与情境的真实性,为理论提出提供了丰富的经验素材。
然而,自然观察一直有方法上的不足。它取决于环境的偶然性和研究者多年经验。观察者无法决定什么时间出现关键现象,也无法安排变量同时发生联动。因此,研究进度难以规划,变量覆盖也不系统,尤其拿低频事件、跨尺度过程或弱因果关系毫无办法。
另一方面,自然观察是一种整体呈现的方式,不需要分割变量。变量间的因果结构常被环境复杂性所遮蔽,研究者多只能感知现象表面,难以揭示其背后的生成机制。气候异常与社会行为的互动、生物多样性与系统稳定性的因果链,往往呈现出彼此交织、互相影响的状态,使理论验证陷入“相关而不可拆解”的困境。
此外,自然观察的不可重复性也削弱了其理论检验能力。某一现象若仅在特定情境中出现一次,其所支撑的理论也多具有限外推性。即便通过长期积累获取大量数据,也因缺乏变量操控与实验封闭,难以满足证伪性与再现性的科学标准。自然观察更适合作为理论灵感的来源,而非严格结构验证的平台。
因此,这一路径的根本瓶颈并非技术不足,而在于变量不可控、因果难隔离与验证标准缺失。当观察只能揭示现象、而不能建构结构,理论便难以超越感知经验,转化为系统性的因果判断。正是这些限制,推动了现代实验走向操控结构与构造验证的新逻辑。
受控实验的出现标志着科学实验范式的根本转变。受控实验在科学史上是一大转折。它以人为设定的变量和严格的对照组为基础,通过构建封闭系统并排除干扰,将理论假设变成可检验的实验方案。这一范式确立了实验在科学体系中的中心地位,也奠定了现代科学关于因果推断与证伪逻辑的基本框架。
在物理、化学和生物等领域,受控实验极为奏效。技术上,它隔离了复杂因素并标准化实验步骤,化繁为简为可计算的数学关系。这种做法让实验结果能被多次复现,也更易于分享与教学推广。变量被隔离、过程被标准化,现象被简化为可解的函数关系。这种高度控制使实验结果具有可重复性与可传播性,为知识的制度化和教育的规模化提供了支撑。
不过,这种逻辑也有局限。受控实验要求研究对象对操作有可预测的反应,因此只适用于变量清晰的系统。遇到跨越多种时间或空间尺度、动态变化或需人类深度参与的课题时,就难以隔离变量。在心理学、社会学、环境科学等领域,变量难以彻底隔离,实验设计往往退化为轻度干预”或“近似实验设计”,标准随之弱化。
同时,受控实验的伦理与成本边界也限制了其实用范围。灾害响应、社会冲突、公共健康等高风险情境,无法通过变量操控进行重复实验。即便在生物医学和行为研究中,伦理审查、资源限制也使得大规模实验难以执行,研究路径不得不转向模拟、估计与推断,其理论普适性也随之弱化。
更深层的冲突则来自于受控实验背后的理论前提:世界是可封闭的,变量是可分解的,因果是可线性操作的。而在复杂系统中,这些前提往往不再成立。然而现实系统中存在多重反馈、路径依赖和个体与环境的复杂互动,传统实验范式难以应对这些挑战。
受控实验的贡献无可否认,但其局限性也日益突出。它排斥的,恰恰是当代科学最亟需解释的部分。实验越是精密封闭,与现实的张力便越大。这一困境,不在于实验技术尚不完备,而在于实验逻辑本身已难以承载复杂现实的理论需求。
模拟仿真作为一种新型实验路径,兴起于计算能力的发展与理论模型逐步公式化的进程。它不再依赖物理实验装置或等待自然现象发生,而是将理论假设当作模板,用数值计算在虚拟环境中模拟系统的行为与演化。如今,从材料建模、气候预测到社会系统的多主体交互,仿真已成为诸多领域不可或缺的实验手段。
相比于自然观察与受控实验,模拟仿真的优势在于其突破了现实操作的限制。研究者可以在超算上无限次重现场景、测试极端条件,并构造现实中难以实现的变量扰动方案。例如,气候模型能够反复运行不同二氧化碳排放情景,预测百年后的全球温度分布,弥补现实中无法直接实验的空白。高度可调的参数空间还允许快速遍历复杂体系中的多组参数组合,从而覆盖因伦理、成本或物理条件受限而无法验证的情况。
然而,这一路径也存在矛盾。仿真本质上不是从经验出发的重构,而是基于理论假设的演绎。其变量设定、边界条件与演化规则均来自模型内嵌的先验设定,生成结果只能在“设定合理”条件下成立。这使仿真易陷入循环论证:输出是输入逻辑的展开,难以独立检验理论本身。
此外,许多仿真模型为了简化运算,采用分层结构或静态假设,难以覆盖现实中的非线性反馈与突变过程。在社会系统建模中,多智能体行为常被压缩为效用最大化的规则,忽略了认知状态、语言语境与情境演化等因素,从而无法模拟出真正的结构创新与行为转变。例如,城市交通仿真经常假设司机都是理性决策者,却忽略了实际中司机的情绪和文化习惯对驾驶行为的影响,导致模拟结果与现实脱节。
更值得警惕的是,人们常把“能重复生成结果”(再现性)误认为“验证理论正确性”(验证性)。即便模型能生成与现象相似的结果,也可能依赖于调参拟合而非因果揭示。尤其当引入黑箱算法后,模型的推理过程不可解释,验证路径被进一步封闭,理论透明性与证伪性受限。
因此,模拟仿真虽然扩展了实验的操作边界,却也在方法论上引入新的不确定性。它用构造能力取代了部分验证能力,用逻辑一致性掩盖了理论脆弱性。作为第三类实验路径,其强项与弱点高度耦合:它能构造结构,却难自证这些结构是否映射真实。
自然观察、受控实验与模拟仿真虽然各具路径特征,但在面对复杂系统、高维结构与极端情境时,均显现出结构性的共通局限。首先,它们均难以覆盖完整的变量空间。自然观察依赖环境机遇,受控实验受限于可操作性,模拟仿真则依赖理论预设,三者在本质上都难以生成非典型、边缘或反事实情境,从而限制了理论检验的广度与深度。
其次,这三种路径在验证机制上高度依赖外部世界的经验呈现。实验的有效性往往建立在对现实过程的再现性与可观测性之上,这一判断标准在面对不可重复、不可干预或尚未发生的问题时逐渐失效。理论的生成逐步转向用模型搭建实验结构和概念化推理,而实验的验证手段却仍停留在有限维度上的干预逻辑,这种生成与检验之间的规模脱节,已成为当代理论演化的主要障碍。
更根本的问题在于,传统实验范式将“真实”视为必须经由自然呈现的数据来确证的对象,而非可构造、可操控的结构性关系。在变量难以穷尽、因果无法隔离、系统不可重演的情境中,这一认知立场显然不足以支撑知识系统的持续演化,也无法回应理论结构日益复杂化所提出的验证要求。
所以,虽然技术已将传统实验推向极致,但其方法依然局限于局部验证。为了解决这一科学检验的困境,我们需要一类能够构造实验条件的新平台。人工智能的介入,能够开启一种不同于观察、控制与拟合的新型验证逻辑。
人工智能生成机制的能力边界与可行空间
从数据增强到反事实构造:生成技术的跃迁路径
人工智能在生成数据方面的能力,最初源自对既有样本的拓展与扰动,即所谓“数据增强”——通过旋转、裁切、插值、重采样等方式,扩充训练集的表现力以提升模型稳健性。但这种方法只能在原数据基础上做形式上的改变,无法改变数据的底层结构。真正意义上的跃迁,发生在生成模型具备主动构造变量组合、模拟非观测情境、重建结构分布的能力之后。
以生成对抗网络(GAN)为例,它并不是简单改写已有样本,而是通过对抗性训练机制,在潜在空间中主动生成全新样本。这些样本往往不局限于经验数据中出现频率较高的模式,从而拓展了变量组合的边界可能性。扩散模型则在此基础上进一步实现了从噪声出发的高保真生成过程,使人工智能能够合成出具备局部真实感与全局结构一致性的复杂样本。这些方法不仅使模型具备了“近似观察”的能力,也赋予其模拟“未被观察之事”的潜能。
大型语言模型的生成能力,则在语义层级打开了新的通道。它们不仅能生成完整的文本,更能基于上下文逻辑重建整个概念链条:从提出一个反事实假设,到在新背景下转换场景,再到在嵌套条件下进行推理。一个prompt不仅是任务指令,也是包含一系列条件的‘变量激活器’,其输出内容可以被视为特定因果设定下的情境演绎。由此,生成不再是现实数据的近似或补充,而成为构建“尚未发生但理论上合理”场景的手段。
在这一技术跃迁路径中,人工智能从单纯模拟观测,逐步走向构造性建模;从补全数据空间,逐步转向生成结构空间。这种能力的根本特征在于:它不以经验分布为边界,而以潜在变量空间为建模对象;它不再只对“已有之物”进行再表达,而开始生成“结构上可能”的实验输入。这一跃迁,为理论的反事实验证、边界检验与变量操控,提供了远超传统实验的扩展维度。
可控变量与可编程实验:生成过程的调度机制
与传统实验路径依赖外部条件或物理设备实现变量控制不同,人工智能通过建模内部机制,使变量的生成与组合具备高度可调性。这一能力的核心不在于数据量的扩展,而在于实验场景能够被主动设计并生成——研究者不再等待某一情境的发生,而是通过模型设定令其“被制造”。
在大型语言模型与扩散模型的生成机制中,prompt、条件变量与潜在空间的调控手段成为关键工具。Prompt 不只是指令,更是一种预先设定各项实验参数的指令模板,能够在模型内部激活特定的因果结构与语义逻辑。例如,通过设置“假设某一政策失败”或“在偏好发生改变的情境下”,模型可以生成具有目标约束的语言行为、决策路径或数据样本,进而模拟多种结构性输入条件。这种机制大大拓展了实验条件的表达力,使变量不仅可以设定,还可以组合、嵌套乃至序列化地展开。
在图像生成与仿真系统中,扩散模型与条件GAN 同样展现出对变量生成过程的精细控制能力。通过控制初始噪声分布、采样轨迹与外部条件约束,模型可以在保持全局结构稳定的同时,对局部细节进行定向修改,从而实现对变量扰动强度与组合方式的可编程设定。这一生成逻辑不仅具备实验设计的可控性,还能在无需物理试验的前提下完成变量干预,从而在模型内部形成一套完整的“拟干预—响应”通道。
多智能体模拟平台在动态过程中进一步演化这套机制。在AgentSim、MetaGen 等系统中,不同的角色行为、环境设定、交互规则皆可被视为实验参数。例如,Meta 研发的 CICERO 系统将大型语言模型嵌入《外交官》这类复杂策略博弈环境,使智能体能够在遵循博弈规则的同时,以自然语言展开协商、推理与策略沟通,不仅模拟了偏好演化,还重建了语言行为与行动决策之间的结构性因果关系。研究者可在语义层面设定初始条件,在演化过程中追踪变量如何相互作用、偏好如何更新、结构如何反馈,进而实现对复杂系统内部机制的直接建模与验证。
在这一路径下,人工智能所提供的不是一套单一数据输出机制,而是一种面向变量空间与因果过程的编程能力。实验的意义不再局限于是否在真实世界中发生,而是是否可以被结构性地构造、干预与追踪。正是在这一转向中,实验被重新定义为一种“可按计划自动运行和调整的实验流水线”,而非经验性的重复操作。
从样本生成到结构嵌入:走向类实验逻辑的构建能力
人工智能的生成机制不仅能产生更多数据并增强可控性,更在深层次上改变了生成内容的内部结构。生成的对象不再是孤立的数据点,而是嵌套了理论假设、角色认知与行为逻辑的“虚拟实验场景”。这一转向的本质,是从统计意义上的数据生成,迈向具备因果表达与演化结构的实验重建,使人工智能不只是实验条件的提供者,更成为实验过程的组织者与理论关系的模拟器。
这种将实验逻辑内置于生成内容的能力,最直观地体现在多轮交互、多角色设定与情境演化的系统中。与传统仿真系统不同,它更在意生成过程是否能映射理论框架。以Voyager 系统为例,它将大型语言模型嵌入开放式游戏环境《Minecraft》中,通过设定任务目标、反馈机制与工具链条,让智能体在持续探索中自动规划子任务、学习工具使用并生成行为脚本。每一步都有语义标注,还能记录决策因果和分支路径,最终把‘行为数据’变成检验理论的材料。这类系统所生成的,不再是被动响应的数据流,而是一种包含任务目标、角色偏好与状态更新规则的实验情境模拟。
结构嵌入的生成机制还使实验具备了按步骤运行并记录全过程的能力。一旦生成过程与变量演化之间形成映射链条,研究者就可以像分析真实实验那样,追踪某一行为是否源于特定偏好设定,或某种输出是否依赖于先前状态的演化路径。这种结构透明性,使得生成数据不仅具有解释性,也具备验证性——它能承载理论模型的假设,暴露模型在某些条件下失败或偏离预期的节点,甚至提出结构替代的可能方向。
更重要的是,类实验生成并非局限于自然语言或行为路径的模拟,它也可延展至图像、图结构、政策响应甚至伦理冲突的建模场景中。一组prompt 不再只是触发某类输出的指令,而是对一组结构规则的调用与组合,是嵌入式实验平台中最基本的编程单元。通过 prompt 链、条件设定、语义模板等方式,研究者得以构建具备“理论含义”的生成实验,使推理路径、偏好结构、演化机制共同参与验证过程,构成一个完整的“类实验系统”。
在这一意义上,人工智能生成机制所提供的,不只是对现实的模拟,也不是对经验的替代,而是一种对理论结构的“模型内检验”。它开启了超越物理空间的新型实验逻辑,使理论验证从外部观测转向内部构造,从变量控制转向结构生成,为“拟受控实验”的提出提供了实践支点与技术前奏。
生成数据的真实性问题:结构可证还是逻辑幻觉?
当数据不再来源于自然观测,而是由模型生成,实验“真实”的判断标准也随之变化。传统实验依赖对现实过程的贴合,通过观察、重复和验证确立其科学性。而人工智能生成的实验以结构构造与变量调度为基础,其真实性不体现在经验再现上,而在于逻辑一致性与因果清晰度。
在这一背景下,生成数据的科学效度不应只看统计分布是否合理,更应关注其是否具备结构表达力与理论关联性。围绕这一判断,当前可归纳出三个基本标准:可控性、可重复性、可证伪性——构成了生成实验走向科学验证的基本前提。
可控性:变量是否结构明确
可控性是实验具备科学意义的前提。传统实验通过物理操作控制变量,生成实验则在模型内部通过prompt来设定变量,实现逻辑上的操控。关键在于:变量是否能被明确设定、是否在生成过程中持续生效,并在不同场景下保持其语义一致性与逻辑效应。
在大型语言模型中,这种控制能力的体现最为典型。以 Anthropic 的 Claude 为例,它的 prompt 设计非常系统化。除了设定角色和目标,还能在指令中加入额外规则、价值偏好和子任务,形成多层次的参数约束。在多轮对话或复杂推理任务中,这些prompt 控制项可以稳定地影响模型输出的立场、风格、策略与行为路径。换言之,变量不只是输入词句,而是内嵌在生成结构中的逻辑节点,并通过概念之间的推理关系展开其效力。
这一机制的关键优势在于,变量的控制不再依赖后验解释,而是把变量规则写进模型架构。例如,在设定一个“角色为公共政策顾问,偏好以社会公正为首要原则”的 prompt 后,模型在面对具有价值冲突的问题时,会显著偏向强调公平分配与群体权利。这种响应的可控性不仅体现在内容层面,更体现在结构路径的稳定性上:即变量对行为逻辑的嵌入是一致而可复现的。
反之,若生成变量仅存在于模型内部隐层、不可设定、难以追踪,则难以判断其在生成中究竟扮演了什么角色。可控性并不仅是“输入有效”,更要求“变量结构明确”——具备清晰的语义边界、可验证的生成轨迹与理论对应关系。只有当变量的设定具备这种结构清晰度,生成实验才具备理论操控与因果推断的基础。
可重复性:生成实验能否稳定重构
可重复性是实验作为验证机制的基础标准。一个实验若不能在相同条件下得出相似结果,便无法支撑稳健的理论判断。在传统科学中,这依赖于严格的再现机制。而在生成实验中,关键要看模型内部设定是否稳定、输出是否一致、变量扰动是否受控。
目前,许多生成式模型对初始设置和随机性非常敏感,输入相同的prompt 可能输出显著不同的内容,使生成过程更像“采样”,而非“重构”。因此,要实现科学意义上的可重复性,生成机制必须具备严格锁定参数,并调节内部随机性的能力。
以 Google 推出的 InstructPix2Pix 为例,这一图像编辑模型能根据相同文字指令稳定修改图片。例如输入“把这间白天的房间变成夜晚”,模型将保持空间结构不变,只调整光影、色温与窗外环境。同时,模型支持种子(seed)控制,使得生成结果不仅逻辑一致,也在图像层面具备高重复性。这类系统表明,生成实验完全可以在逻辑空间内构建近似于物理实验的“再现机制”。
可重复性的另一个关键在于能够查看并追踪模型生成全过程。生成过程是否可以被解释、被跟踪?输入条件是否可以被明确描述并再次设定?若生成结果无法对应输入条件,或依赖模型内部隐性机制而不可复建,那么再现本身就失去了基础。在语言模型中,使用 chain-of-thought 推理路径或工具调用日志,可以一定程度上记录生成过程的每一步输出,为重复生成与路径对比提供支撑。
因此,生成实验的可重复性,并不等于结果完全一致,而是要求条件设定和逻辑流程保持一致。只要生成机制对输入设定响应稳定、结构路径可再现,生成数据便可承担理论验证的重复基础。它为实验提供的不再是一次性的观察,而是可以多次调度、持续验证的结构单元。
可证伪性:生成实验能否支持理论区分
科学实验的核心价值在于其可证伪性,即实验不仅能支持某一理论,也能揭示其局限,甚至推翻它。在生成实验中,这一标准要求模型能够在相同设定下生成与理论假设不一致的结果,从而构成有效的理论竞争与结构反演。
传统物理实验中的可证伪性,依赖于对理论边界条件的精准控制与极端测试。在生成系统中,这一能力则取决于模型对输入设定与结构假设的灵活响应能力。模型必须能在“接近合理”的范围内生成冲突情境,提出潜在反例或边界情境。若一个系统只能在既有理论范围内演绎,而无法生成与原有结构不同的新模式,则其验证机制便可能沦为逻辑闭环而非科学检验。
近年来,Shirley Ho 教授领导的 Polymathic AI 项目展示了生成实验在科学理论验证中的潜力。该项目结合了符号回归和神经网络,能够从观测数据中自动提取物理规律。通过这种方法,模型不仅能够复现已知的物理定律,还能在数据中发现新的结构关系,提出可能的替代理论,从而实现理论的筛选、否定与重构。
此外,语言模型也展现出初步的理论区分能力。例如,在设定对立性假设条件时,模型可以生成结构性冲突内容:如要求其“证明某经济政策有效”与“说明其潜在失败路径”,输出将呈现因果链分化与变量响应差异。这种差异在形式上构成“可证伪的语境对”,为理论之间的差分测试提供了素材。
真正具备可证伪性的生成实验,应能支持三类任务:第一,生成对立假设条件下的分化输出;第二,揭示既有理论在特定条件下的失败结构;第三,生成潜在替代结构或异质因果路径。以上能力来源于对变量逻辑和结构规则的深度建模,而非偶然的多样性。
因此,生成实验若要具备科学效度,必须嵌入结构层级上的“理论区分机制”。它不以再现单一理论为目标,而以构造理论之间的边界、展示理论之间冲突点为方法。这一机制的嵌入,才标志着生成实验从“可生成”走向“可验证”。
拟受控实验框架:人工智能时代的第三类实验平台
概念溯源:从“真实性哲学”到“拟受控实验”
在人工智能进入科学实验领域的过程中,“控制”作为实验的核心能力,常被默认等同于对物理变量的干预与精准设定。在自然科学体系中,这一逻辑成立:变量可以封闭、环境可隔离,实验因此具备可重复性与理论判别力。但当人工智能进入社会行为、认知过程、语言互动、文化选择等非自然系统的理论建构时,这种基于物理可控的实验范式迅速失效。实验不再面向可观测的外部条件,而进入复杂多义、主体介入深重的语义空间。面对这些结构,实验不可避免地走向“拟受控”状态。
“拟受控实验”概念最早由金观涛在“真实性哲学”理论中提出,意在指出:当实验对象涉及人类行动、社会互动或符号系统时,控制变量不能仅限于可测量的物理量,而必须引入认知状态、理解路径与语境结构等主体性维度。个体不能被悬置,意义不能被抽空,实验必须承认并设计这些不可中立化的要素。
这种观点在科学哲学中并非孤立存在。W.V.O. 奎因(Quine)曾提出“理论的经验下决定性”——即在社会意义结构中,同一组经验事实可能对应多种解释框架。加之伽达默尔在解释学传统中强调,理解综述嵌在已有概念与语境之中,因此在社会科学实验中,“控制”不是排除一切干扰的物理过程,而是对语义条件、文化背景与主体立场的有意识构型。
因此,在人工智能主导的社会实验中,若要具备理论验证功能,就必须引入“拟受控”框架。不仅要控制行为变量、政策参数等“显性结构”,更要在模型中嵌入认知偏好、话语立场与语义环境这些“深层结构”。控制变量的重新定义,是拟受控实验成立的前提,也是人工智能介入此类实验逻辑的哲学根基。
实验逻辑的扩展:从观察者到生成者的重构
“拟受控实验”既需要控制实验结构,又要嵌入参与主体的实验概念,为人工智能在非自然科学领域中开展实验性建模提供了理论前提。而在人工智能语境下,这一框架正在获得实质性的技术扩展与逻辑重构。与人类设计实验时的有限调度能力不同,人工智能通过生成模型、情境建模与多角色嵌入等机制,使实验的构造方式更加系统、灵活与结构化。
首先,生成模型赋予人工智能以情境建构的能力。语言模型可以通过 prompt 编排,模拟不同的历史背景、社会设定与文化结构;图像或多模态模型可生成具象化的情境表达,使实验不再依赖于现有数据,而成为“可合成的世界”。实验不再只是对现实的再现,而成为理论设定下的建构场域。
其次,角色嵌入机制使实验主体得以多维度建模。人工智能不仅模拟环境或规则,更能模拟行动者的信念结构、偏好与互动逻辑。每一个角色既是输出者,也是变量演化的载体,实验的动力机制因此具有“认知-反应-演化”的内在结构链。实验的本质不再是观察结果,而是追踪结构演化过程。
更关键的是,主体在这一逻辑中不再是观察者,而成为通过模型间接作用于实验世界的“构造者”。实验平台不再只是被动观察现象的“窗口”,而是能主动创建结构、安排变量,并规划演化路径的“实验发动机”。这标志着实验主体性本身的范式转移:由验证转向生成,由执行转向设定。
在此逻辑下,人工智能不仅能建构实验,也能模拟理解、触发行为、组织反馈,完成对社会互动或语言理解的规律的检验。拟受控实验不再仅是一种理论构想,而逐步成为技术层面可实现、结构层面可分析的认知平台。
人工智能主导的拟受控实验,不再依赖对现实世界的观测与操作,而通过模型内部的构造逻辑完成对理论结构的模拟与验证。为了具备系统性实验的特征,这类实验平台必须在三个关键层级上完成要素重构:即情境层、变量层与输出层。只有这三层协同,才能同时承担理论构建与检验的任务。”
情境层:构造语境与假设背景
情境层是实验平台的边界设定与语义起点。不同于传统实验中对实验环境的物理隔离,生成实验依赖对语境的设定来模拟社会背景、行为场景与制度结构。人工智能通过语言模型或图像模型,可以生成灾害应急、社会冲突、政治协商、文化传播等复杂情境,并在其中嵌入特定的制度假设或文化语义。例如,一个生成实验可能设定一个资源短缺情境下的多方协调过程,或者一个信息封锁环境中的舆论演化过程。这些情境不仅为实验提供背景设定,也决定了变量与行为在其中的意义结构。
变量层:控制可调的内在机制
变量层是拟受控实验的核心部分。与自然科学中的物理量不同,这里的变量往往是是人的偏好或信念等心理因素。人工智能可以对个体偏好的发展趋势、角色信念的稳定程度、人物性格或动机结构进行参数化设定。这些变量可以通过 prompt 编排、嵌入向量、条件规则等方式施加,并在生成过程中动态更新。它们既可以反映外部行为的差异,也可以揭示内在机制的变化,从而为理论的因果链或结构模型提供观测路径。
输出层:生成具结构性的验证结果
输出层是生成实验与理论结构之间的桥梁。传统实验以测量数据为结果,生成实验则以语言、图像、动作轨迹或决策路径等形式表达结构响应。一个结构良好的输出层,应把输入设定和变量变化清晰地转化成可分析的结果。例如,在多智能体系统中,可以分析代理间的博弈平衡;在语言模型驱动的政策模拟中,可以追踪话语态度的转变轨迹;在图像生成中,可以观察图像风格、情感表达或符号指涉的变化。输出不仅是终点,也是验证理论合理性、区分竞争机制的关键媒介。
通过情境设定、变量控制与结构输出的三重构建,人工智能生成实验不仅具备了“构造世界”的能力,也建立起“验证理论”的通道。这一机制的成立,使拟受控实验从概念设想走向了可操作的实验逻辑,并在模型内部构筑出一个理论—结构—行为三位一体的系统空间。
风险与挑战:生成实验的结构困境与应对路径
尽管人工智能主导的拟受控实验为理论建构与验证提供了新的结构空间,但这类实验本身也面临一系列不可忽视的风险与方法论挑战。最显著的问题是“伪真实”风险,即看似真实却与理论无关的生成结果风险。模型在训练中习得的是表达方式与语言规律,而非对变量间因果关系的真实建模。这种结构自洽但脱离理论基础的“语言幻觉”,容易使研究者误将生成路径视为理论演绎,从而放弃对模型结构本身的质疑与解析。例如,斯坦福大学设计的一项模拟1052名个体行为的生成智能体系统,在文本逻辑上高度连贯,但其在处理真实社会互动中展示出明显行为偏差,反映出生成结构与行为机制之间的断裂。
第二类挑战来自“结构闭环幻觉”的生成偏好。生成模型追求结果的内部一致性与风格连贯性,这在实验场景中可能造成“理论冗余式再现”——即模型在没有经过真实变量扰动或逻辑冲突的情况下,自动补全理论所预期的输出,进而掩盖真实的反例、异构路径与边界情况。这种闭环结构削弱了生成实验的区分性,使其更像一种叙事模拟而非理论检验。尤其在拟受控语境中,变量间的模糊边界与结构干预的不可见性更容易使问题被误读为“合理”,而非被揭示为“可证伪”。基于GPT-4对154项心理学实验的复制研究表明,尽管模型对主要效应的模拟准确率较高,但在交互效应与极限情况下表现出显著失真,暴露出结构验证机制在生成过程中的弱化趋势。
第三个风险涉及伦理与个体责任的界限。在构建复杂社会行为或敏感角色模拟时,人工智能实验可能引发对人类行为的操控性再现或简化替代问题。若实验模拟复杂社会行为而不公开其假设和控制机制,就无法区分模型设计与现实因果的责任。这不仅在社会科学研究中引发信任危机,也对人工智能的解释能力、透明机制与可追溯性提出更高要求。例如,Meta 公司引入大批 AI 驱动的虚拟用户以优化社交平台内容流动,尽管技术有效提升了交互活跃度,却引发关于虚假身份泛滥与公共信任受损的广泛担忧,成为社会性生成系统伦理难题的一个显例。
应对上述挑战,首先需要建立一套理论结构图谱与验证基准,将生成过程嵌入可追踪、可拆解的理论框架中,使变量控制、路径选择与结构输出均可在逻辑链条上被标注、比较与质疑。其次,应在实验平台中引入“反事实生成机制”,主动设计对立情境与冲突结构,检验理论边界条件与模型输出的稳定性,从而保持生成实验的结构开放性与批判维度。最后,构建“人机共构”流程:研究者不仅作为输入设定者,更应成为验证设计与结果判断的循环参与者,在实验前设定条件假设,在实验中追踪干预路径,在实验后审视结构合理性与伦理后果。只有在这样透明协同的机制下,生成实验才能进入真正的公共理论检验领域。
总结
人工智能生成机制的发展,正将人类实验逻辑从“记录自然”推向“构造世界”。生成数据不仅提升了信息获取的效率,更实质性地改变了实验的本体结构与理论功能,使我们首次具备了在模拟空间中主动构建实验条件、变量逻辑与结果结构的能力。实验因此不再是经验的被动采集,而成为理论验证的前置环节与模型内演化的产物。
拟受控实验,作为在社会语境、认知结构与语义关系中展开的实验新形态,构成了人工智能背景下的第三种实验平台。它不再依赖于物理环境的可控性,而是将控制逻辑延伸至理解路径、主观信念与互动语境,使实验得以在高度复杂、不可封闭的领域中展开结构性验证,从而拓展了实验的适用范围与认知能力。
随着生成机制的深入嵌入,实验的真实性判断标准也在发生根本转变。真实不再仅由自然界的可观测性所决定,而由生成结构的控制能力与主体对其逻辑含义的理解深度所定义。结构逻辑、语义一致性与变量可控性,成为新的真实性指标,标志着科学认识从自然本体论迈向结构建构论的范式演化。
在这一转变中,人工智能不仅是实验工具的升级,更是科学实验体系的参与者与重构者。它以构造能力介入理论提出过程,以生成能力拓展验证空间,最终将成为理论演化路径上的合作者与共同体成员。从实验设计到理论推演,人工智能的角色正在发生本体性的转变:它不再只是“用于科学的工具”,而是“参与科学的智能”。
文章合作者:
林毓聪:北京理工大学光电学院特别副研究员
魏煜杰:德国亚琛工业大学机械工程学院在读博士
现在征订全年刊和三年刊,
即享超值优惠!