金融大模型，能让普通人成为“投资之王”吗？

2024.03.26 阿尔法工场

最新的实验表明，人工智能选出的股票组合涨幅约为2%，基本与大盘持平，离所谓的“AI索罗斯”相去甚远。

自从ChatGPT问世后，人类就想到了用它来分析预测各种走势。

天气、流行病、股价走势，都在被给予厚望的清单里……

上月，一个名为The GPT Portfolio的账号在推特迅速走红。该账号此前宣布，将借助ChatGPT进行实盘投资。

根据他们的研究，ChatGPT 不仅能够预测股市价格走势，还能产生超过 500% 的回报！

而在5月26日，摩根大通也宣布正在研发名为“IndexGPT”的金融服务工具，利用云计算和人工智能进行证券的分析和选择，为客户提供智能化和个性化的投资建议。

一时间，似乎所有人都嗅到了GPT所散发出的财富的味道……

那么，AI+金融的组合，真有那么强大么？

今天，让我们不妨先将目光聚焦回国内，分析度小满最近发布的金融大模型——轩辕，看看是否能在该大模型身上，找到这些问题的答案。

01 数据越大越好？

上月月底，度小满正式发布基于BLOOM-176B研发的轩辕大模型，是一个通用+金融领域的千亿级参数大模型。其数据集不但包含了各种通用内容，还包含了诸如金融研报、股票、基金、银行、保险等方向的专业知识。

在金融场景中的任务评测中，效果相较于通用大模型大幅提升，表现出金融领域的独特优势。

在这里，我们就试着从金融数据、金融新闻理解、市场舆情分析这三个方面，对轩辕大模型在金融领域的表现，进行一番剖析。

首先来看金融数据方面。

众所周知，对于垂直领域来说，大模型所具有的专业数据越多、质量越高，其模型表现就越好。

那么在这方面，轩辕是否积累了足够的金融数据呢？

一个不可否认的事实是：尽管百度这些年一直在尽力在金融领域布局，其麾下的度小满涵盖了消费金融、支付、互联网理财、互联网保险、互联网证券等多个板块，但从体量上来说，其掌握的金融数据，仍旧很难以与国内的一些庞大的金融集团，例如中投相比。

中投在国内控参股10多家金融机构，掌控万亿资产，其投资和涉及的行业包括了信息科技、金融、弹性消费品、医疗健康等领域，其中信息科技占比最高，为22.76%。此外，在工业、通讯服务、非弹性消费品、原材料等领域也有一定分布。

而相较之下，度小满的金融服务，则更多地集中于互联网金融领域。

既然没有数据方面的绝对优势，度小满又怎么有信心问鼎国内首个金融大模型呢？

原因就在于，在垂直领域，专有数据的运用，其实远比追求“绝对数据”的优势要重要。

ARK（方舟基金）创投联合负责人及分析师Will Summerlin在谈到这点时，曾说到：“对于想抓住这次AI革命的公司来说，运用好自身的专有数据集，能让他们快速针对自己的领域来训练或微调模型。”

在此前百度搭建的金融生态中，出现了面向大众的消费信贷服务品牌---有钱花、理财平台--度小满理财，以及支付平台——度小满钱包。

这些APP中积累的信息，构成了百度用来训练或调整模型的大量数据，基于这些数据，百度可以形成一套自身专有的反馈循环系统，进而逐渐形成对产品的洞察力。从而使其能不断针对客户数据优化模型，让模型随着时间推移越来越好。

更重要的是，除了拥有数据之外，将数据与AI相结合的能力，也是构建金融大模型不可或缺的一步。

早在2018年，创立之初，度小满就看到了“NLP+金融”的潜力，开始进行相应的产业布局。

而当时不仅全世界专注做NLP公司很少，成立专门的金融科技NLP团队的更是鲜见。

经过数年的钻研，2021年，在微软举办的MS MARCO 比赛中的文档排序Document Ranking（文档排序）任务中，度小满的AI-NLP团队排名第一并刷新纪录。

2022年，轩辕 (XuanYuan) 预训练模型，也在中文语言理解领域最具权威性的测评基准之一CLUE分类任务中排名第一。

于是，放眼国内，在金融领域拥有庞大数据的，在NLP上却比不过度小满；而在NPL上有所建树的，却又很少能搭建出度小满那样专有的金融生态。

如此一来，轩辕便确立了自身在“金融大模型”这一生态位中的独特优势。

02 AI“索罗斯”？

除了金融数据外，轩辕大模型的另一个重要的能力，就是其对金融事件、新闻的解读能力。

很多投资者，都希望借助大模型的能力，来分析金融时事背后的原因。

毕竟，索罗斯这样的金融大鳄，90年代正是凭借对欧洲舆情、时局的准确判断，做出了做空英镑，做多马克的决定，并一举战胜了英格兰银行。

而这种阅读并理解时事，乃至解读市场舆情的能力，则主要是由大模型的自然语言处理能力（NLP）决定的。因为时事解读，舆情分析的主要任务，是对大量的文本数据进行语义分析和情感分析。

在NPL方面，轩辕大模型的一个最大特点，就是“化大为小”，“化通为专”。

具体来说，轩辕通过将开放领域学到的知识迁移到下游任务，不仅改善了低资源任务数据相对不足的问题，也提高了自身的泛化能力和鲁棒性。从而更好地适应不同领域和场景的阅读和分析需求。

然而，这种用大量通用数据预训练一个基础模型，再用特定任务数据微调一个下游模型的做法，以往存在两个缺点：

一是预训练和微调的数据可能存在不一致或不匹配的问题，导致模型难以适应新任务；

二是微调的数据可能存在不足或不平衡的问题，导致模型难以学习到有效的特征。

对此，轩辕大模型在引入金融任务数据训练的同时，还融合了不同粒度不同层级的交互信息，从而改进了传统训练模式。

具体来说，轩辕采用了多阶段的训练策略，先从通用大规模的数据逐渐迁移到小规模的特定业务以及特定任务，然后通过不同的阶段逐渐训练，直到满足目标任务。

这样可以缓解预训练和微调之间的数据不一致或不匹配的问题，提高模型的迁移能力和泛化能力。

同时，在预训练阶段，轩辕还使用了多种自监督学习任务，如掩码语言模型、语句顺序预测、语句内部结构预测，这样可以从不同角度和层次学习语言知识和语义信息，提高模型的表达能力和理解能力。

基于这样的能力，我们也不难理解，为何轩辕大模型曾在2022年，在中文语言理解领域的CLUE分类任务中排名第一。并且距离人类“表现”仅差3.38分。

实际上，金融行业因其与数据的高度相关性，成为了NLP最早赋能的行业之一。

通过NLP，人们可以在证券投资中为量化投资贡献因子，如热点挖掘、舆情分析、事件驱动分析，或是在大数据风控中，用Tag抽取技术为构建用户画像提供技术支持。

例如事件驱动分析这一功能，在应用NLP技术前，很多金融从业人员真的是靠人盯新闻、公告，来获取相关信息，然而，从一篇长篇累牍的新闻或公告中，找出一些风险信号或营销机会真的是费时费力。

而NLP的应用，无疑极大地提升了金融领域的工作效率。

那么，在具备了准确识别和分析金融事件、市场舆情的能力后，金融大模型是否真的能带众多投资者一飞冲天，成为AI加持下的新一批“索罗斯”呢？

03 AI+投资，神话or噱头？

还记得开头提到的那个借助ChatGPT进行实盘投资，并声称收益率超过500%的例子吗？

截至5月底，已有2.5万名投资者被吸引，总共约押注1000多万美元的资金在ChatGPT选出的投资组合上。

然而，经过近两周的实践后，人们发现这个“AI分析师”似乎并没有像传说中的那么“神”。

人工智能选出的股票组合涨幅约为2%，基本与大盘持平，且按百分比计算，该组合中后五名股票的下跌幅度超过了前五名的涨幅。

针对这种情况，有文章分析称，这是因为Autopilot实验项目中的投资组合，是命令ChatGPT分析1万条以上的新闻，并得到得分最高的前100只股票，再结合公司财报数据得到综合打分，最终买入的前20只股票。

在失去空头部分收益的情况下，实际的投资表现自然会与论文中的回测结果产生较大差异。

等一下，不是说AI已经可以通过NLP，准确地识别并分析金融事件、市场舆情了吗？那为什么在结合了1万条以上的新闻+公司财报的情况下，“AI分析师”的表现仍然不佳呢？

可能的原因之一，就在于AI也许很客观，但人类却不总是如此。

在人类构筑的媒体世界里，虽然各类的网站、平台或社交媒体数不胜数，但在信息的传播过程中，大部分普通人，却往往会受到少数几家头部权威媒体的影响。

这些权威媒体、人士的倾向和态度，带动并影响了更多的网站、平台。

于是在处理某些类型的金融产品或市场时，大模型的数据源，可能会更偏向某些特定的网站或平台，而忽略了其他来源的信息，进而产生了“数据偏见”。

此外，在处理自然语言时，大模型可能会遇到一些语义歧义的情况，如果某些词汇有多种含义，AI在处理时可能会选择错误的含义，导致信息的偏差和误导。

这些部分，都是现阶段AI无法独自纠偏的。

不过，如果因为AI不能让人实现梦想中的“投资神话”，就认为金融大模型的存在，是一种锦上添花的技术，也未免太浅薄了。

因为在可预见的未来，传统风控模式面临效率低下、容易出错、难以面对大规模数据处理等挑战。

类似度小满在内的企业，通过大模型技术探索，让企业可以自动化地处理大量数据，快速、精准、全面地分析和识别贷款潜在风险，进而优化风险模型，提高风险控制的准确性和效率。

此外，轩辕大模型不仅能够解释授信额度、计算收益率、决策参考等金融专业问题，还能够结合资产状况、收益目标和风险偏好，以及外部的市场动态，给出更符合用户需求的答案和建议。

由此可见，在抛下了“通过AI投资暴富”的狂想后，金融大模型仍旧可以在风险防范、金融知识普及方面，让更多群体受益。

而这种更务实的方向，才是AI+金融正确的打开方式。