B体育我讲的题目是“人工智能在金融领域的应用与挑战”,主要聚焦大语言模型。今天的内容分两个部分,很多人听说过大语言模型,但是对它的细节了解稍微少一些,稍微介绍一下大语言模型,下面主要聚焦大语言模型在金融领域的应用。
先来看一下什么是大语言模型,定义是“一种用于处理自然语言信息的大型的人工智能模型”,人工智能怎么样用机器进行学习处理文本?一般来说训练分为三个步骤:第一步是预训练,先拿大量的文本数据集,包括书籍、报刊、新闻等等,建立基础模型;第二步进行有监督的微调,因为有了基础模型之后要保证有一定的准确度,问题与答案一一对应;第三步是进行人类反馈强化学习训练,将经过监督微调训练之后的模型进一步基于人类专家打分排序的数据集进行训练。
用大语言模型大家都尝试着用过类似于ChatGPT之类的软件,它能干什么?你可以问它很多问题,我简单列了四条:第一是简单的知识问答,你可以问什么是“夏普比率”;第二是情感分析,我问茅台怎么样,它回答新闻对于茅台的情感倾向是正向的、积极的;第三种实体抽取任务,比如说这里有一个关于xx公司的新闻信息,它把这些信息的关键实体进行提取,提取出这个新闻信息的主体、财报发布时间、财报数据等等;第四是总结摘要,比如说你输入鲍威尔说的一段话,让他总结这段话的含义,它会告诉你,最近劳动市场报告良好,接近目标。所以机器通过训练,通过大量文本数据的学习,可以提供一个问答,可以进行情绪分析,可以抽取数据,也可以帮你总结摘要,这就是他们干的事情。
到这里我们要回顾一下,为什么叫大模型,它的特点就是大,大在什么地方?它的参数量比较大,这里我放的是国际上比较流行的模型,在下一页我放的是国内比较流行的模型,我们这里只是举例说明,如果你的模型没在这上面,欢迎告诉我们,我们是从公开数据获得的,但是很可能不全的。
GPT3.5,发布机构OpenAI,发布时间2022年3月,模型参数1750,GPT4参数模型根据外界推测可能到了1万亿(因为GPT4是闭源模型,没有公开具体参数,因此该数字是一个外界的估算),下面这些大家可以直接看到,模型参数也很多,都是亿级的,训练的数据量也是亿级,非常大。我们看看国内的模型,把比较流行的模型放在这里,比如盘古、文心一言、通义千问等等,模型参数量跟前面很类似,训练数据也比较类似,前面三个大的商业模式,初级版是开源的,复杂版更好用的目前还没有开源,但是数据量的庞大程度也是一目了然的。大家可能会问,为什么我们用大语言模型,为什么要那么大,为什么一直讲“大”这个事情,因为量变会导致质变。2022年的研究证明大语言模型在各方面的能力突破一个量级以后,就会有突破性增长,有很多大语言模型,预测能力为零,但是当参数量变大的时候,能力是有显著提升的,算术能力准确度,翻译能力的测试,恢复原词的测试,当大到10亿的时候,就有一个能力上的突破,大语言模型确实是size是非常重要的,大语言模型参数如此之多,表现的到底怎么样?给大家看一张非常有意思的图。到底跟人类相比怎么样。
大家知道右半边的结果,左边不知道,这里拿大语言模型考了中国的考试也考了美国的考试。美国的考试包括了大学入学考试、研究生考试、法学院考试和数学竞赛;中国挑了高考、国家公务员的考试和律师资格考试。我们要看什么?最外面的圈是说我们当中聪明的人他能考多少,里面还有蓝颜色的是我们普通人的表现。我们先看右半边,SAT美国的考试,可以发现GPT4,在SAT的时候已经逼近了最聪明的人,其他考试LSAT、GMAT也不错。我们再看看中国的考试,先是高考,GPT4比一般人还有一定距离,跟聪明人更有距离B体育,所以在中文这边没达到一般人水平,律师资格考试也差的很远,我们的公差得也很远。所以GPT4,在中国的考试能力上目前还没有达到我们优秀学生的水平,但是在英文那边它已经做的很好了,这就是它的能力,我相信国内的大语言模型更新换代如此之快,超过这个指日可待。
既然发展这么快,我简单给大家过一下我国政府对于大语言模型是什么样的政策和态度。整个的政策基调是鼓励的、开明的、支持的。一系列的中央政治局会议“十四五”规划中都有关于加快场景创新人工智能等等指导意见和生成人工智能管理器的暂行办法。是要告诉大家,目前国内监管还是比较积极的,尤其是今年的8月31号,大家都已经知道,中国首批8家AI大模型通过备案上线,其中就包括文心一言,还有百川大模型,还有上海人工智能试验室的书生通用大模型,这8家已经通过备案正式上线为公众服务,积极推动行业发展。
大语言模型的出现将会给社会带来潜在正向的经济影响,这项新技术的产生其实是对整个经济有非常显著的推动作用。
第一,广泛的行业影响,它带来生产效率的提升,已经影响很多的产业,很多的人。根据今年8月份麦肯锡发布的问卷调查表明,79%的受访者使用AI,22%的人经常使用,像我们这种人使用生成式AI的频率很高,市场营销客服等等使用的频率也很高,这会代表它生产效率有提高吗?答案好像是。
第二,助力经济发展,高盛预计生成式AI模型带来的生产力提升将在未来10年提升全球7%的GDP增长,麦肯锡提出AI将带来全球每年2.6-4.4亿美元产值。
第三,就业市场更迭,大语言模型目前职能代替简单的文本处理的职位,而且对于大语言模型开发本身也会带来大量的全新的就业岗位。
大语言模型的影响力可以是非常巨大的。金融行业其实是一个服务行业,要处理大量的信息。以前这些信息都是数字型的,但是现在我们也意识到大量的数字、大量的原始数据,其实是文本的,我们以前处理文本信息比较慢,没有效率,但是它确实是我们工作的重要组成部分。我们不仅要处理文本信息,还要处理信息特别快,大语言模型在这层面上表现的特别好。比如说要做高频交易,几个微秒就要做出选择,我想提出金融服务行业的竞争是特别激烈的,大语言模型提供的数据处理能力和时效能力对各大金融企业来说,是将来的一条生命线。
大量金融服务面对客户的时候需要语言沟通,不管是做头部还是售后处理,客服和投资顾问还是有可以改进的空间。
我一直在做投资,我首先想到的问题,是大语言模型在投资里面怎么用,能不能真管用?很经典的例子是个股新闻,判断新闻文本对股票的影响,得出来是正面的消息、负面的消息或者中性的消息?比如说某某公司前三季的报告,同比有增长,所以情感分类是正面的。如何将大语言模型应用于投资?这里以修大成教授的一篇工作论文为例,介绍如何应用大语言模型来估计股票的预期收益率,文章选择了16个国际股市的数据和文章B体育,基于不同自然语言处理方法,分析了大语言模型在股票新闻情感分析上的投资效果。研究发现了以前传统的文本分析的量化方法Bag of Words存在劣势,比如太过简单,以前就是数词;另外维度太大,准确率效率比较低,模型难以复用,以前是数词,现在可以结合上下文含义,就不会遗漏信息,可以全面理解文本的含义;最后给大家看一张图,很让人叹为观止。
它的大语言模型用的开源的,用的OPT、RoBERTa 、BERTB体育,传统的NLP方法用的是Word2vec、SESTM,用这些之后给它们打分,买最好的10%的户做空,最不好的用10%的多空策略;近20年的表现,最上面OPT模型,过去20年累计收益率达到750%,年化收益率比大盘好很多,用大语言模型做出来的比传统的机器学习的文本模型做出来的要更好一些。这个已经做了,是在试验室里面,非常真空的环境下做出来的,我想也可以说明一点,就是说大语言模型它的应用前景在投资方面还是非常广阔的。
我们总结一下,大语言模型在投资方面可以干什么,可以处理信息,可以进行情感分析,可以进行数据的抽取,可以生成文本,可以摘要,可以问答,可以进行机器翻译,之后可以用在投资的选择上面,风险的管理上面、市场分析、文档处理、自动化客户服务,舆情分析等等。
我们讲宏观经济分析中的应用,就是国计民生话题的应用。我举了一个业界的例子,摩根大通今年4月份发布的一个研究成果,可以用于分析美国央行对于货币政策态度。他们的模型构建分为三个步骤,第一他们语句初筛,剔除与货币政策无论的语句;第二是相关性得分,判断这句话是否包含情绪偏向观点,并进行打分作为权重;第三是做出大语言模型它的目标是基于大语言模型分析美国央行对于货币政策的态度,一开始用的是BERT,后来用的是ChatGPT,通过央行各种文本信息B体育,预测到将来的利率是什么。
我们看看结果怎么样,这个图里面黄色线和蓝色线,分别表示的是一年期的利率,一个联邦利率一个是国债利率,蓝色线就是我们刚才说的鹰鸽指数,能不能预测到利率变化?如果我们用鹰鸽指数预计七天以后的一年期美国利率结论还是比好的,这个系数是1.4bp,意思是一单位的鹰鸽指数上涨预测将来七天以后利率会上涨1.6个基本点,这个统计上非常显著,它的解释能力怎么样?R方0.26,从央行文本信息里面拿出的指数有非常明显的预测利率的作用,不仅仅可以预测利率还可以预测别的东西,比如说汇率,失业率、GDP的增长率、通胀率,太多了。
目前研发垂直领域的大语言模型是越来越多行业的选择,金融行业也不例外,这是因为通用大语言模型可能是“通才”,他们可能什么都会,但是在某个专业领域表现并不一定能非常出色,很多时候我们更需要的是“专才”。一个模型好是取决于你给它喂什么,如果我多给它喂一些金融数据,我这个金融的GPT,是不是会表现的更好?Bloomberg就试了一下,因为本来这就是一个信息终端,就有大量的信息,如果只喂金融文本表现会怎么样,新增三千多个金融领域的数据集,包括各种财务报告、申报文件、新闻稿等等,结果发现金融垂直领域只看金融的文本,喂的是“细粮”,出来的东西是不是会更精细更准确?答案是好像是这样,金融垂直领域大语言模型它的各项任务都高于原始的基准模型,其中有五个任务当中的四个任务都取得了非常好的表现,在它内部的数据集里面,比如股票新闻、社交媒体、公司媒体等等方面的情感分析任务上面表现的都非常好,这是不是新的发展方向?中文是不是我们也可以培养一个专业的GPT?
上面聊的这是金融投资方面的相关应用,我们看银行服务业,银行理财业领域大语言模型能够干些什么?这里有波士顿咨询的一个研究成果,他们把银行工作链分成了六个流程,从一开始的市场销售,到第二步的渠道运营再到产品开发,还有投顾服务,到客户关系管理和风险合规,每一步用文本训练出来的大语言模型都可以起到非常重要的作用。比如第一步,用大语言模型可以帮你更精准的获客,把客群进行细分,可以自动生成广告文案,可以对客户的情绪进行分析,可以支持营销人员的话术培训,这个很多,大语言模型在各方面应用的潜力是非常巨大的。
第一,金融专业领域知识的匮乏性(大语言模型在某个领域语料不足),比如金融GPT,投放什么样的饲料养出什么样的动物,如果饲料不够,模型就理解不了,要经过很长时间的训练,原料够不够,这是一个挑战。
第二,训练成本B体育,训练大语言模型算力需求太贵了,大家之前看动不动就上亿、上万亿,所有的成本都是非常高的,以50B参数量的BloombergGPT为例,训练花费了267万美元,这个费用并不是绝对大多数企业能够承担的,只有头部企业才能买得起。
第三,金融信息的及时性需求(大语言模型的训练语料滞后性问题),大语言模型的训练过程中,由于训练需要花费大量时间,因此训练好的模型有滞后问题。金融领域往往我们会关心当天发生了什么,可以决定明天要干什么,如果它掌握的信息比较滞后的话,对于很多金融决策的判断都会受到影响。
第四,金融政策的精确性要求。比如某家公司的CEO是谁?某家公司的年收入是多少?这些我们往往需要其回答唯一正确的答案,但是由于大语言模型存在幻觉问题,对于这种问题的回答很容易出错。
为了应对以上挑战,目前有了很多新的技术出现,比如说为了解决及时性的问题,就要及时更新你的数据库,让大语言模型拥有最新的信息,这些技术方面的信息假以时日都能解决。除了技术挑战之外,它更大的挑战是监管规范与合规性的要求。全球对于AI的态度,不管在中国还是在别的国家,也一直处于一个争论的状态,有没有一个国际准则,大家都是在趟着水走,这些讨论涉及到什么地方?比如说数据安全,用户的隐私保护,比如说它输出的内容审查,模型的有毒性、偏见、公平性、合规性审查等等,这些依然是悬而未决的。
最后,我总结一下今天的发言。第一,大语言模型虽然出现的时间较短,但是正在对全球和中国经济产生积极的影响;第二,金融行业的众多业务场景非常适合大语言模型的应用和落地,未来应用前景广阔;第三,金融行业大语言模型落地也面临很多挑战,为了规范大语言模型在金融领域健康有序的发展,相关监管部门需要及时制定规章制度,指引行业健康发展。以上为我今天的发言,谢谢大家。