Fork me on GitHub

ChatGPT 在投资研究领域的应用初探及原理分析

作者: 费斌杰 DataFunTalk

导读: ChatGPT的诞生打破了很多人对于AI能力边界的想象,我就是其中之一。

出于敬畏与好奇,我们团队去年底开始尝试对ChatGPT进行解构,试图理解它的原理,以及它为何能够有如此优秀的性能表现。GPT-3早在2020年就被提出,但为何直到今天才引起大家高度的关注?ChatGPT性能这么强,是否可以在实际的投资研究场景中大显身手?

在这篇文章中,我们针对以上问题进行深入探讨,并且给出尽可能详实的分析过程。本文浓缩了我们团队的研究成果,共分为以下四个部分:

  • ChatGPT为什么是革命性的突破,它和其他模型相比强大在何处?
  • ChatGPT为什么这么强?它的各项能力是如何获得的?
  • ChatGPT在投研领域是否具备实际应用价值,是否能够回答专业的投资研究问题?
  • 在可见的未来,大语言模型的发展可能会带来怎样的影响?

写在前面:熵简科技是一家专注于帮助资管机构实现投研数字化的科技公司,主要客户包括中金、中信、广发、建投、国信、招商、华夏、嘉实、银华、博时、汇添富、兴全、易方达等证券与基金公司。我是熵简科技的创始人,但在写下这篇文章的时候,我更多是纯粹作为一个在新技术浪潮下,既兴奋又紧张的见证者和参与者,尽可能客观的评述分析这项新技术对我们行业会带来怎样的影响与冲击。以下分享是我们熵简团队的研究成果,LLM技术发展日新月异,当前时点的分析难免错漏,欢迎各位指正。

01 ChatGPT为什么是革命性的突破?

ChatGPT为什么是革命性的突破,它和其他模型的本质区别在哪里?

在回答这个问题前,我们得先思考一个更关键的问题:什么样的语言模型,才是最理想的模型?

根据目前学界的观点,一个理想的语言模型,应该具备以下性质:

  1. 具备强大的自主学习、消化知识的能力,其学习过程不需要人为介入。
  2. 能够很好地理解人类指令,习惯人类的表达方式。
  3. 能够正确、清晰的给出问题的回答。

可以说,ChatGPT在这三个方面的综合水平上,相比它的前辈们,取得了突破性的成就。

GPT-3模型诞生于2020年6月(Language Models are Few-Shot Learners),此前NLP领域的主流技术是深度学习模型。和我同龄的朋友在学生时代应该接触的都是LSTM、CNN等特征抽取器,更早的朋友当时接触的可能是模拟退火、蚁群算法等优化理论。

但是随着GPT和BERT等两阶段预训练模型诞生后,NLP领域的研究范式出现了快速切换,海内外大量科技公司选择了以BERT为代表的双向预训练 + Fine-tuning的模式,包括我们熵简科技在内,推出了应用于投研领域的FinBERT模型。但与此同时,还有另一条技术路线,那就是OpenAI选择并坚持至今的自回归模型 + Zero/Few-Shot Prompt的模式。

图片

图:Five of the current largest dense transformer models (Training Compute-Optimal Large Language Models)

2020年6月开始至今的这段时间,可以说是海外人工智能技术取得快速发展的黄金时期,新的理论和技术层出不穷,模型性能不断取得新的突破:

  • 2021年7月OpenAI发布Codex模型
  • 2022年3月OpenAI发布InstructGPT架构
  • 2022年7月OpenAI发布code-davinci-002模型

Code-davinci-002模型就是后来ChatGPT背后的基础模型(ChatGPT的家族谱系请见下文)。与此同时,学术界的研究也同样获得了突破性进展,比如2022年1月被提出的CoT方法,2022年以来被大量研究的LLM的Emergent Abilities(下文均有详细分析)。理论与实践的快速发展共同催生了ChatGPT的诞生。

图片

图:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

ChatGPT这么强,仅仅是因为它足够“大”吗?

是,但不全是。

首先,ChatGPT确实很大,它背后的模型是一个在有3000亿tokens上预训练的拥有1750亿个参数的大语言模型。

但是,ChatGPT并不是目前世界上最大的模型,比如Google的PaLM的参数规模为5400亿,DeepMind的Gogher参数规模为2800亿,国内华为盘古α的参数规模为2000亿,百度文心的参数规模为2600亿。论参数规模,ChatGPT虽然跻身千亿俱乐部成员,但远远不是最大的那个。

那为什么相比其他大语言模型,ChatGPT能够拥有如此出色的性能表现呢?

ChatGPT这么强,是否依赖于大量人工标注?

并不尽然。

ChatGPT背后的GPT3.5,仅加入了数万条人工标注数据,相比于其预训练过程使用的3000亿tokens来说,可谓九牛一毛。目前学界倾向于认为,ChatGPT通过海量文本预训练,掌握了基本的语法知识,以及大量世界知识,所谓**“知识注入”**。比如“地球是圆的”属于常识、或“对位芳纶全球消费量在8-9万吨,国内自给率是20%”属于投研领域专业知识,这些都属于“世界知识”的范畴,都是在模型预训练时注入的。

相对的,人工标注的数据,提供的则主要是人类偏好知识,比如礼貌的回答是好的,带有歧视性的回答是不好的等等。OpenAI的作者将其戏称为**“对齐税”(Alignment Tax)**,即为了使回答满足人类的偏好而牺牲了部分模型的性能。

02 ChatGPT如何获得强大的模型能力?

ChatGPT为什么这么强?它的各项能力是如何获得的?

目前关于ChatGPT模型优秀能力的来源在学界众说纷纭,尚未有定论。但有两种猜想已经得到了绝大多数学者的支持,分别是**“涌现能力”、以及“代码训练”**。

ChatGPT的核心能力一:大语言模型的涌现能力(Emergent Abilities)

GPT-3模型其实早在2020年就已经公布,那为什么直到现在才引起大家的充分关注呢?这是因为在2022年前,业界普遍认为GPT模型是遵守Scaling Law的,即随着模型规模指数级上升,模型性能实现线性增长,所谓服从log-linear curve。实证数据也证明了这一点,当时GPT-3模型的性能并不优于fine-tuned T5-11B模型。

图片

图:Scaling Laws for Neural Language Models

事情在2022年发生了变化,**CoT(Chain-of-thought)**技术诞生了,它直接突破了Scaling Law的限制,使得 大语言模型的性能出现了颠覆式提升 。这项技术其实并不复杂,这里我截取原论文中的阐述示意图来说明。

图片

图:Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

图中左侧是一个标准prompt,模型的回答也很简短,并且回答是错误的;右侧的模型输入中,我们加入一个标准的思考过程,然后我们惊讶地发现,模型的思考能力随之出现了显著提升,能够一步一步得出正确的结果了。这种prompt方式也被称为one-shot prompt,与此相对的是zero-shot / few-shot prompt。当然你也可以直接在模型输入的最后,加上“Let's think step by step”来达到类似的效果。

图片

图:Emergent Abilities of Large Language Models

那么大语言模型为什么会产生如此神奇的“涌现能力”呢?

目前学界有众多猜想,还没有统一定论。但是目前已经有大量实证证据表明“涌现能力”真实存在。当模型规模达到某个阈值时,模型对某些问题的处理性能突然呈现快速增长,就像突然解锁了某种特殊能力一般。最新研究表明, 随着模型规模的进一步增长,还可能涌现出各式各样的特殊能力 ,其中有些能力我们并不关注(比如5位数加法的准确率大幅提升),但有一些能力则直接解决了NLP领域困扰大家多年的心头大患,比如复杂推理能力、OOD鲁棒性等。

图片

图:Emergent Abilities of Large Language Models

其实学界的每个概念,都是很直白且容易理解的,大家没有必要被这种名词吓到,比如OOD鲁棒性,这里的OOD指的是Out-Of-Distribution,即当测试数据集的分布显著有别于训练数据集的分布时,模型的性能是否会出现大幅下降。由于现实世界是充满不确定性的,真实环境的数据集遵循的分布完全可能发生偏移,因此 OOD鲁棒性对于一个语言模型能否投入到真实环境使用而言非常重要

如此棘手的难题,大语言模型直接通过“涌现能力”意外地解决了。如下图所示,GPT-3在OOD情形下显著outperform RoBERTa baseline。这不禁让我们对未来充满了乐观的预期,随着模型规模的提升,是否会有更多NLP难题自动迎刃而解,“模型规模”难不成就是人类通向AGI(通用人工智能)的钥匙?

图片

图:Prompting GPT-3 to be reliable

ChatGPT的核心能力二:通过代码训练得到的复杂推理能力(Complex Reasoning)

这个能力的奇妙程度相比第一点而言,可以说有过之而无不及。

大家现在都知道,ChatGPT的背后是Text-davinci-002模型,但如果回溯ChatGPT的“模型家谱”,我们不难发现,Text-davinci-002模型其实是基于Code-davinci-002模型经过指令微调的产物。

图片

图:ChatGPT模型家族谱系

如果我们进一步回溯到起点,对于没有接受过代码数据训练的GPT-3模型,它的复杂推理能力是很弱的。GPT-3的一个分支对代码数据进行了专项训练,Codex模型中代码数据量约为159G,基于此产生的Code-davinci-002模型神奇的具备了思维推理能力。由此对比不难看出,在模型训练的过程中,是否引入“代码数据集”,很有可能是模型是否具备复杂思维能力的关键变量。

这是为什么呢?我的观点是, “代码”可以理解为一种具备高度逻辑性的文本语料。 因为不具备强逻辑性的代码会无法执行,而不像普通文本语料那样有着较高的逻辑自由度。

更进一步地来看, 面向对象编程(OOP)是把客观世界中的实体抽象为类,对象则是类的实例化 。对象与对象之间可以互相通信,从而来模拟了现实世界中不同实体之间联系;面向过程编程(POP)则是把一个复杂的任务拆分为若干个步骤,然后一步一步加以实现。

从这个视角来看, “代码”是一种建立在具备高度抽象性和逻辑性的思维模式下的“语言” ,人类创造了这些语言(C、Python、Java等等),编写了大量代码。现在我们把这些海量的代码喂给大语言模型,模型从对大量代码的学习过程中,逐渐掌握了隐藏在代码背后的抽象能力与逻辑能力,进而涌现出我们在ChatGPT上感受到的“智能”。

当然以上这些都是我们以及目前学界的一些推测,还有一些其他推测,比如由于代码中含有大量注释信息,注释信息与代码之间形成了(代码,描述)的数据对,意外的实现了多模态对齐的工作,从而使得模型的推理能力大幅提升。

03 ChatGPT在投研领域是否具备实际应用价值?

ChatGPT在投研领域是否具备实际应用价值,是否能够回答专业的投资研究问题?

要回答这个问题,最好的方式还是投身实践。

截止目前,业界的朋友更多还是在和ChatGPT进行亲切友好的攀谈,或者向ChatGPT提出一些类似脑筋急转弯的问题,以期试探其智能的边界。

在这篇文章中,我们从专业的视角出发, 以真实的投资研究问题入手,对比专业投资者和ChatGPT对于同一问题的回答 。由于篇幅有限,这里我们以“储能行业研究”为例,进行对比实验。

在实验中,我们取用了一份2022年的专家访谈纪要,专家在访谈中分析了对国内大储行业的行业现状、电芯及Pack层面的供需关系、对储能新政的解读等话题。在QA环节,投资者抛出了一系列大家关心的重要问题,诸如“国内大储装机量提升的核心驱动因素是什么?”、“大储业务盈利能力未来是否可以获得改善”等。我们将这些问题提给ChatGPT,并且把ChatGPT的回答与专家的回答进行对比,结果如下。

问题1:目前大储业务盈利水平很低,是否会预计未来有一定的改善?

图片

图片

图:上方为ChatGPT的回答,下方为专家回答,下同

可以看出,ChatGPT对于专业投研问题的回答并不能让人满意,他并没有对问题做出正面回答,而是阐述了影响行业盈利水平背后的若干因素。与此相对的是,专家给出的投资建议则直截了当,并且包含详实的数据和分析过程,更加具有说服力。

问题2:国内工商业储能市场发展趋势?23年的量如何预计?

图片

图片

在这个问题中,ChatGPT依然没有给出正面回答,而是进行了模糊化处理,说了一些“正确的废话”。相比之下,专家的回答则有理有据,包含大量细节。

问题3:如果钠离子电池比较成熟,锂电池厂商往钠离子切换难度大吗?

图片

图片

在这个问题中,ChatGPT难得地给出了一个直截了当的判断,那就是“锂离子电池工艺转向钠离子工艺路线的难度较大”。但是如果和专家的分析比较,不难发现二者判断相左。专家认为“国内锂电池产线只需要20-30%的改造工作就可以转型生产钠离子电池”,难度较低。我无法评判二者的回答谁更接近正确答案,但是要准确回答这个问题,需要具备对这两个行业生产工艺的深度理解,ChatGPT似乎尚不具备这方面的专业知识。

从以上的实践分析不难看出, ChatGPT目前在专业的投资研究领域的回答还不尽如人意,距离中高级投资分析师仍然有较大的差距。 这与ChatGPT接受的训练集有着很大的关系。根据论文Language Models are Few-Shot Learners,GPT-3模型的训练语料中,60%来自于 2016 - 2019 的C4,22% 来自于 WebText2,16% 来自于Books(Books1 & Books2),另外3%来自于Wikipedia(英语)。投资研究领域存在着大量私域材料,无论是专家纪要、研究报告、还是业绩点评,都没有出现在ChatGPT的训练集中,这能够很好的解释为什么ChatGPT在专业垂直领域中表现不佳。

04 大语言模型的未来?

在可见的未来,大语言模型会如何发展?

首先可以预见的是,大语言模型会变得越来越大,探索大语言模型的性能天花板,成为了一件非常重要的事。 随着模型规则的增加,大语言模型会涌现出哪些新的特殊能力呢?它的复杂推理能力是否可以达到科研水准,从而帮助人类解决基础学科的科研难题呢?这些问题,都有待于我们这个时代的科学家们、学术机构、科技企业来一同探索。

第二,大语言模型带来的巨大红利,将会逐渐“溢出”到非NLP领域,带来巨大的经济价值。 从分类学上来看,ChatGPT属于“Text to Text”以及“Text to Code”的范畴,而Stable Diffusion、DALL-E等模型已经在“Text to Image”领域展露头角,其作画能力完全不输给职业画师。除此之外,“Text to Video”、“Video to 3D Model”、“Text to Music”等多模态场景的模型也蓄势待发。我们即将迎来的,是一个由于基础模型取得突破性进展而导致各行各业的有效前沿实现快速外拓的新时代。

图片

第三,高质量的模型背后依赖于高质量的数据工程。 虽然全球经济活动产生了大量数据,但是LLM所需的训练集体量膨胀速度更快。根据预测,到2026年高质量NLP数据将被用光,低质量图像数据将在2040年左右用光。与数量相比,质量更重要。各行业加强数据治理应该是大势所趋,努力提高专业领域数据质量,否则目前这种数据驱动的模型优化方式可能会逐渐收敛进步的步伐。

投资研究是一个长期缺乏有效数据治理的专业领域,数据呈现出**“来源分散”“非结构化”“缺乏关联”“质量参差不齐”“更新不及时”**等问题。近年来越来越多的头部资管机构意识到投研数据治理的重要性,中金公司在2022年底推出了中金点睛平台,广发证券推出了广发智慧数平台,熵简科技很荣幸成为这些优秀平台背后的建设者。我们相信随着行业的发展, 越来越多的机构会意识到高质量投研数据治理的重要性,而大语言模型则是释放这些数据价值的金钥匙

Because it's there. —— George Mallory(英国登山家)

参考文献:

[1] Language Models are Few-Shot Learners, Tom B. Brown, Benjamin Mann, Nick Ryder

[2] Transformers as Soft Reasoners over Language, Peter Clark , Oyvind Tafjord

[3] Scaling Laws for Neural Language Models, Jared Kaplan, Sam McCandlish, Tom Henighan

[4] Chain-of-Thought Prompting Elicits Reasoningin Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans

[5] A Survey for In-context Learning, Qingxiu Dong, Lei Li, Damai Dai

[6] An explanation of in-context learning as implicit bayesian inference, Sang Michael Xie, Aditi Raghunathan

[7] Frequency effects on syntactic rule learning in transformers, Jason Wei, Dan Garrette, Tal Linzen,

[8] Future ml systems will be qualitatively different, Jacob Steinhardt

[9] In-context learning and induction heads, Catherine Olsson, Nelson Elhage, Neel Nanda

[10] On the Advance of Making Language Models Better Reasoners, Yifei Li, Zeqi Lin, Shizhuo Zhang

[11] Learning to retrieve prompts for in-context learning, Ohad Rubin, Jonathan Herzig

[12] Large language models are human-level prompt engineers, Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han

[13] Towards a unified view of parameter-efficient transfer learning, Junxian He, Chunting Zhou, Xuezhe Ma


本文地址:https://www.6aiq.com/article/1676093416225
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出