肩膀上的眺望 - 预训练语言模型
切换视频源:

肩膀上的眺望 - 预训练语言模型

作者: 莫烦 编辑: 莫烦 发布于: 2020-12-19

学习资料:

人脑的神经细胞数量约是860亿, 假设一个神经细胞和一个乒乓球一样大,那么人的神经细胞需要6万多个足球场才能装下。如果按照神经细胞个数来判断智能程度,无疑人类是一种非常智慧的生物。

大家好,欢迎回来,我是周沫凡。

遗传信息渠道

nlp

蚂蚁,自出生以来,并不需要多少学习,就能获取一生所需要的所有技能,因为这些技能由遗传物质释放出来,并在它整个生命周期中发挥着重要作用。反观人类,对比一下我们出生的状态和现在的状态,如果我们没有通过源源不断的学习、积累经验,是完全无法在社会上生存的。为什么我们和蚂蚁差距那么大?原因是我们的进化让我们选择的不同的发展方向。我们具有记录信息,传承文化的能力,这可以算作我们的第二种遗传基因。如果说第一种基因是通过繁衍流传种族生命的信息,那么文化和知识这第二种基因则是通过学习延续和流传信息的。可以说我们比蚂蚁多了一种信息的流传渠道。

nlp

出生时大脑给我们准备了这么多的神经连接,其实是为了让我们在后天具备学习能力。而每个人后天的生存环境有所不同,新的知识将构造成独一无二的神经连接方式,独一无二的神经网络形态。我们人类是怎么样这些固化成神经连接的知识传递下去的呢?

信息编码

当然,我们需要进行一次知识的通用编码,将它转化成文字,动画,声音等等,下一代人还能通过学习获取统一解码能力,将编码的文字,动画,声音解码转移至自己的大脑中,完成知识的迁移。因为人类无法像计算机那样复制大脑,所以只能使用这种间接的方式传递知识。咦,如果计算机的复制是它的一种优势,那我们能不能利用这种优势,为人工智能创造能被复制的知识?我们整理一下思路,看看机器是怎么完成“学习型遗传信息”的传递的。

知识转移

nlp

在有限的时间内,利用前辈的认知去构建新的价值,减少独自闭门造车的负担。如果不满足前面这些基础要求,学习型遗传信息就失去了意义,因为严格意义上,个体拿无限的时间是可以换取无限的知识。转换过来,知识是用时间换来的,通过获取别人沉淀的知识,实际上等同于延续了个体时间的长度。“吸取先验经验,少走弯路”不就是表达这么一个意思吗。

在当今的人工智能中,我们常花大量的时间和计算资源,训练一个优质的模型,这也算作是一种将资源和时间转化成知识,存储在模型的形式。在利用知识的时候,我们就可以发挥机器的优势,直接复制模型的所有神经连接,不用再经历复杂的知识编码(比如写书)这样的过程。

模型迁移

nlp

那么什么情况是值得将知识储备在模型中?找到了这个问题的答案,就能解释为什么模型迁移技术在最近几年才发展迅猛。因为模型的参数量越来越大,或者说神经元个数越来越多,当今比较大的语言模型更是拥有近1750亿的神经元个数,这个数量比人脑的860亿还要多一倍多。这么大的神经网络模型,需要花非常久的时间训练,但也带来更优秀AI能力,具备了非常好的知识储备。所以这种模型是值得被迁移的,站在巨人的肩膀上,进一步做事情的时间效率比十分高。所以简单来说,当模型越大,知识储备能力越强,就相当于是一本百科全书,是十分有价值被重复利用的。

nlp 大规模深度学习模型就是一个知识体,我们可以用很多种不同的模型框架来存储知识,比如在自然语言处理中,像这种双向LSTM模型,或者Transformer类模型,他们的特点都是大,参数多。如果神经元个数是模型能力强大的先决条件,那么神经元连接数就代表了知识的组织和存储能力强弱。而后再次利用这些存储的知识时,并不一定要全盘照搬,一字不差地利用。因为有很多时候,先验知识也不一定适应变化的时代,或者新的任务,我们更愿意将这些固化下来的神经链接稍作修改,让它顺应变化。这很好理解,就是我们七八十年代工业革命后的经验,并不一定完全适合于21世纪的信息化时代。而这种超大模型的柔韧性也非常好,相比小模型,它有大量的神经连接互相牵连,不会很容易随着一点变化而完全跑偏,这也是为什么大模型比小模型更好做知识迁移的原因之一。

总之,既然已经有一本花10年写出来的自然科学巨作,我们就应该善用资源,基于它继续扩展知识的边界。这就是人类的发展史。同理,既然已经有一个花10天时间和数万亿计算资源训练的大规模模型,我们就应该善用它,基于它继续扩展AI能力的边界。

Talk is cheap, show me your code. 莫烦也有AI编程教学,欢迎你继续探索。

自然语言处理系列


降低知识传递的门槛

莫烦经常从互联网上学习知识,开源分享的人是我学习的榜样。 他们的行为也改变了我对教育的态度: 降低知识传递的门槛

我组建了微信群,欢迎大家加入,交流经验,提出问题,互相帮持。 扫码后,请一定备注"莫烦",否则我不会同意你的入群申请。

wechat