【新】在线运行 Pandas 学习数据管理

【浏览器跑Python】交互式Python学习

【MiniPy】分享你的 Python 小程序

切换视频源：

肩膀上的眺望 - 预训练语言模型

作者: 莫烦编辑: 莫烦发布于: 2020-12-19

学习资料:

人脑的神经细胞数量约是860亿, 假设一个神经细胞和一个乒乓球一样大，那么人的神经细胞需要6万多个足球场才能装下。如果按照神经细胞个数来判断智能程度，无疑人类是一种非常智慧的生物。

大家好，欢迎回来，我是周沫凡。

遗传信息渠道¶

蚂蚁，自出生以来，并不需要多少学习，就能获取一生所需要的所有技能，因为这些技能由遗传物质释放出来，并在它整个生命周期中发挥着重要作用。反观人类，对比一下我们出生的状态和现在的状态，如果我们没有通过源源不断的学习、积累经验，是完全无法在社会上生存的。为什么我们和蚂蚁差距那么大？原因是我们的进化让我们选择的不同的发展方向。我们具有记录信息，传承文化的能力，这可以算作我们的第二种遗传基因。如果说第一种基因是通过繁衍流传种族生命的信息，那么文化和知识这第二种基因则是通过学习延续和流传信息的。可以说我们比蚂蚁多了一种信息的流传渠道。

出生时大脑给我们准备了这么多的神经连接，其实是为了让我们在后天具备学习能力。而每个人后天的生存环境有所不同，新的知识将构造成独一无二的神经连接方式，独一无二的神经网络形态。我们人类是怎么样这些固化成神经连接的知识传递下去的呢？

信息编码¶

当然，我们需要进行一次知识的通用编码，将它转化成文字，动画，声音等等，下一代人还能通过学习获取统一解码能力，将编码的文字，动画，声音解码转移至自己的大脑中，完成知识的迁移。因为人类无法像计算机那样复制大脑，所以只能使用这种间接的方式传递知识。咦，如果计算机的复制是它的一种优势，那我们能不能利用这种优势，为人工智能创造能被复制的知识？我们整理一下思路，看看机器是怎么完成“学习型遗传信息”的传递的。

知识转移¶

在有限的时间内，利用前辈的认知去构建新的价值，减少独自闭门造车的负担。如果不满足前面这些基础要求，学习型遗传信息就失去了意义，因为严格意义上，个体拿无限的时间是可以换取无限的知识。转换过来，知识是用时间换来的，通过获取别人沉淀的知识，实际上等同于延续了个体时间的长度。“吸取先验经验，少走弯路”不就是表达这么一个意思吗。

在当今的人工智能中，我们常花大量的时间和计算资源，训练一个优质的模型，这也算作是一种将资源和时间转化成知识，存储在模型的形式。在利用知识的时候，我们就可以发挥机器的优势，直接复制模型的所有神经连接，不用再经历复杂的知识编码（比如写书）这样的过程。

模型迁移¶

那么什么情况是值得将知识储备在模型中？找到了这个问题的答案，就能解释为什么模型迁移技术在最近几年才发展迅猛。因为模型的参数量越来越大，或者说神经元个数越来越多，当今比较大的语言模型更是拥有近1750亿的神经元个数，这个数量比人脑的860亿还要多一倍多。这么大的神经网络模型，需要花非常久的时间训练，但也带来更优秀AI能力，具备了非常好的知识储备。所以这种模型是值得被迁移的，站在巨人的肩膀上，进一步做事情的时间效率比十分高。所以简单来说，当模型越大，知识储备能力越强，就相当于是一本百科全书，是十分有价值被重复利用的。

大规模深度学习模型就是一个知识体，我们可以用很多种不同的模型框架来存储知识，比如在自然语言处理中，像这种双向LSTM模型，或者Transformer类模型，他们的特点都是大，参数多。如果神经元个数是模型能力强大的先决条件，那么神经元连接数就代表了知识的组织和存储能力强弱。而后再次利用这些存储的知识时，并不一定要全盘照搬，一字不差地利用。因为有很多时候，先验知识也不一定适应变化的时代，或者新的任务，我们更愿意将这些固化下来的神经链接稍作修改，让它顺应变化。这很好理解，就是我们七八十年代工业革命后的经验，并不一定完全适合于21世纪的信息化时代。而这种超大模型的柔韧性也非常好，相比小模型，它有大量的神经连接互相牵连，不会很容易随着一点变化而完全跑偏，这也是为什么大模型比小模型更好做知识迁移的原因之一。