崔予淳:AI投研的边界与可能

过去两年间,随着大模型自身能力的不断提升,AI 在各个垂直行业也开启了加速渗透的进程。金融投资行业因信息需求量巨大、对高质量信息要求严苛,成为率先受益的行业,投研工作也因此被潜移默化地重塑。


讯兔科技(Alpha 派)联合创始人、首席数据官崔予淳在《北大金融评论》发文表示,生成式人工智能技术为金融信息服务行业带来了生产力(模型理解与推理能力、交互工具)、生产资料(非结构化、多模态数据)的两大变革需求,从而催生了一个新的金融信息服务软件形态,这将加速研究的效率和投资范式的进化。


本文完整版刊登于《北大金融评论》第25期。


2022年底,生成式人工智能技术横空出世。过去两年间,随着大模型自身能力的不断提升,AI 在各个垂直行业也开启了加速渗透的进程。金融投资行业因信息需求量巨大、对高质量信息要求严苛,成为率先受益的行业,投研工作也因此被潜移默化地重塑。AI 给投研行业带来了哪些变化? AI 与投资未来是什么关系?本文是关于这个话题的一些思考与见解。


机构投资研究行业趋势


数字化、智能化成为大势所趋


在过去三十年时间,全球资本市场的投资行为和范式发生了深刻转变。在美国等西方成熟金融市场,从主要依赖投资经理的人脑判断,转向“机器+ 数据”协同驱动的投资决策模式,而机器赋能投资决策的路径,也从早期的量价交易数据,向资产的基本面和事实研究判断延伸,主动研究与量化投资的融合之风渐进。截至2023 年底,全球被动基金市场份额已由十年前约21% 上升至约40%。近年来,逾75% 的主动型基金并未跑赢其对应指数。在中国市场,2024 年管理资产规模最大的十家私募证券投资基金机构,有7 家为量化投资策略主导;而这一榜单在2014 年全部由主观投资策略占领。


非结构化信息成为研究的核心生产要素


投资的本质,是由信息流驱动的决策过程。在2020年以前,机器能够辅助处理的主要是结构化的数据,如市场量价数据、公司财务数据、行业经济指标、分析师预测数据等。用技术语言讲即为能被关系代数模型描述的二维、数值型数据。但是,在真正人脑处理信息的决策过程中,非结构化文本甚至多模态信息是识别公司经营与估值边际变化的重要参考。最经典的场景就是调研公司时,公司对于同一业务在不同时点的表述,通常是定性的或者一个数值区间的表述。两次定性表述间的乐观程度的差异,会使投资者形成正面或者负面的预期,从而影响投资决策。


相比传统结构化数据低频、连续的特点,非结构化数据普遍呈现更高频但未必连续的特征,这在传统数据工程技术的处理上存在难度。随着大语言模型的爆发式发展,从前机器无法处理的非结构化、多模态数据处理变为可能,且成本渐趋低廉。我们预计,到2030 年,国内单家金融机构处理的非结构化数据量将达到30TB,即未来年化增长率为16.5%,增速远超结构化数据的处理需求。


金融信息软件获取形态走向语言驱动的“柔性研究”过程


在过去20 年,全球金融信息软件均以BloombergFactSetCapitalIQ 等领先软件为标杆,以标的、功能为单位构建信息展示型页面,并集成到统一的研究终端软件中。国内也不乏同类领先产品,该类软件普遍存在界面繁复、功能冗余、学习成本高且灵活性差等痛点。随着对话式AI工具在全球的流行,各行业都形成了通过自然语言驱动数据分析、业务流程的交互需求,将研究流程整合至统一对话式工作台的AI 工具需求也愈发迫切。


2025 AI 软件领域流行的“vibe 编程/ 研究”产品概念,便是这种理念的先锋实践。未来,用户可以自由定义工作区、研究资料和研究目标,甚至可以与AI 互动来干预研究过程,从而实现软件内数据和AI 工具的灵活交互——我们称其为“柔性研究”。


基于上述总结的投研行业三大趋势,我们认为生成式人工智能技术为金融信息服务行业带来了生产力(模型理解与推理能力、交互工具)、生产资料(非结构化、多模态数据)的两大变革需求,从而催生了一个新的金融信息服务软件形态,这将加速研究的效率和投资范式的进化。


······

《北大金融评论》第25期已经上架

订阅全年刊或三年刊

享独家优惠

扫码订阅→