大模型究竟是什么?
大模型究竟是什么?
一.大模型到底是什么?和以前的AI有何区别?
1、更像人一样的自然语言对话
以前我们和AI对话,它的「AI感」很重、不太类人,而现在的大模型则能够做到在对话过程中基本像真实的自然语言。这其实和大模型是生成式输出内容的原因有关,这里我用一个不太准确的例子形象化去说明一下(后面我们会用严谨的方式来准确描述):
这个大模型很厉害,它先是将世界上的所有知识(无论是书籍、论文、网站、微博等,还是各类语法结构、逻辑推理知识等)统统咽进肚子里进行消化。那么,它是怎么消化的呢?它将每一个知识拆成小块后都打上标签后存储起来。
当你向他问「今天成都天气咋样?」,他会先将你问的问题和问题背景等信息汇集在一起后,拆成小块并打上标签。打完标签后,它会命令10000个小人拿着这些标签同时去肚子里找出能够回答对应问题所对应的已有知识标签,挑出其中最匹配、概率最高的一个,假设是「成」,这时候,它就会在对话框里展示出第一个「成」字;紧接着,它再将你问的问题和问题背景等信息、再结合「成」这个回答,再次找10000个小人同时去找「成」之后可能性最高的那个字,假设是「都」,然后,它再在对话框里展示出第二个字「都」……最终,经过6次让这10000个小人无脑循环工作后,它会一个字一个字的告诉你「成 都 今 天 晴 天」。
在生成式形态之下,它的每一个字都是通过已有自然语言表达中拎出来的单词、词组结合而成的、每一句话也会遵循相对严谨的语法结构等,所以,大部分情况下,很难让人觉得它的AI感那么重。但是,也同时偶尔在出现大模型幻觉的时候,说一些看似语法结构各方面都正确但内容其实胡说八道的话,类似于「今天成都晴天,你要记得带雨伞」。
二. 大模型是怎么被训练出来的?
其实大模型的构建原理并不难,这个过程和我们教会一个小孩学习的思路很类似。其包含了5个阶段:预训练阶段、有监督微调、奖励建模、强化学习、语言模型训练。
预训练指通过海量的训练数据(包含互联网网页、维基百科、书籍论文、问答网站等)预先喂给模型海量的数据,来构建基础语言模型,从而使得模型具有语言生成的能力。这其实是先让这个能够没日没夜学习的超级小孩先自己恶狠狠的吃一大堆多啦A梦那样的记忆面包,先把最基础的能力打好。
但这时候,超级小孩回答的内容还不一定是效果最好的,可能你问「我想出门玩,今天天气咋样」,他会告诉你「今天天气还行」,但其实你背后隐含想了解的可能是:今天会不会下雨,需不需要带伞;或者是今天太阳大不大,需不需要防晒等。
这时候,就需要通过「有监督微调」来帮助模型给出更贴合用户想问问题的答案。通过少量高质量数据集合(包含用户输入问题及对应理想的输出结果),再进一步让这个小孩能够照猫画虎,回答出更好的答案。
前几百次超级小孩的回答我可以人工来逐个去反馈好坏,但针对这么庞大的训练量,不可能全部都去人工进行。因此,就引入到了奖励模型和强化学习部分,模拟人类评估的过程。那具体是怎么来提升超级小孩的回答表现呢?
系统先构建好对应的奖励模型,在对问题进行每一次回答后,超级小孩都能及时收到来自环境给予他对应的「打分」反馈,为了获取最高分,他就需要多次尝试、改善得分策略从而最终有最好的表现。
当我们基本构建好这些方面后,就可以将这样的一套模型进行训练和不断优化,最终就构建好了一个可用的大模型。
总结:以上内容是小编总结的关于大模型究竟是什么?希望能够帮助到大家。