人类的学习和词向量有关系?

人类的学习和词向量有关系?

作者: 莫烦 编辑: 莫烦 发布于: 2020-05-20

2024年更新!

莫烦已经依据 Rethink 的概念, 开发出来了基于 AI 的个人知识管理工具 rethink.run。 它将超越笔记的应用。帮你记录、扩展你的思考,协助你高效成长。

以下是 2020 年的原文:

今年读了一本觉得比较厉害的书介绍这本书《表象与本质》, 想谈谈感受,我首先需要介绍一下这本书的作者,因为如果你知道他是谁,你可能就理解了他为什么这样写, 为什么会有这样的观点。

表象与本质 的作者是 侯世达, 诺贝尔物理学奖得主,斯坦福教授, 心理学教授,认知科学家,计算机科学家,会多语言(包括中文)。还有很多其他的标签。

甚至他的学生也很有名,其中有一个出过 复杂 这本也是非常推荐的书。 不管是侯世达还是他的学生,他们都抱着一颗想要了解生命,了解系统秩序,了解本质的心去专研。

读完表象与本质这本书后,其实我一直想找机会沉淀一下,但由于这本书体系实在有点庞大,我直到现在才开始决定要开始写感受和思考。这下面是我读的时候梳理的脑图, 可以看出,体量真的比较大。

xmind

这本书在说什么

接下来,我假设你已经有一定的机器学习背景。因为我还是想从机器学习的角度去思考作者表述的事情。 作为一位计算机科学家和认知学家,我很佩服侯世达在写这本书的时候,居然没有用上计算机一个专业词汇,虽然一开始, 我就嗅到了浓浓的词向量技术,有可能是因为这本书写在 2013 年前,词向量技术还没有普及,所以他也没提过词向量。 但是向量化的表达那时候肯定已经有了,不过也没见作者使用任何的计算机语言,实在是高。 用普通人能接受的语言,表述了空间,向量,编码这样的计算机词汇。

w2v

书里面有很多细节,我大概说一下,这本书的精华部分。它以人类语言为基础,阐述人类是如何学习语言基础,从词语到句子,学习的方法又是什么,为什么人类具有学习能力, 这种学习能力又是什么?我们如何利用这种学习能力理解新事物的?这些都是这本书里面要解释的重点问题。

范畴和范畴化

范畴范畴化 这两个关键词一直贯穿整书。说白了,范畴就是对某个物体,某个事件,某种行为的一个定义,而这个定义拥有自己所属的一块区域。 与他同含义,同属性的其他物体,事件,行为也会有另一块区域,而这两块区域在距离上将会非常接近,表达他们是非常类似的东西。

land

而范畴化指的是将一个物体,事件,行为进行归类,划分区域的行为。我们时刻都在做范畴化的工作,只是可能不需要使用另一个你熟悉的词或者解释,你可能比较容易理解。 下面的表格,我从生活场景和机器学习的场景分别解释一下,在这些场景中的范畴和范畴化是什么意思。

表象与本质 生活场景 机器学习
范畴 类别 向量空间的不同区域
范畴化 类比 向量化,向量操作

假设你是幼儿

世界对幼儿而言,是陌生的,充满未知的,他们正是通过范畴化来学习的。首先小孩第一个学会的词可能是爸爸或妈妈,但如果你观察身边的婴儿,有时候,他们会将爸爸妈妈弄混, 甚至将所有温暖的,柔软的东西,比如对着玩偶喊妈妈。我也发现我家小孩的一个现象,他对妈妈的定义是:当我喊妈妈,我的困难就会消失,想要的东西就会到我的手里来。 所以他的妈妈的范畴并不是我们成年人这样。他还需要进一步学习到底什么才是妈妈。

随着小孩生活阅历的丰富,它自己构建的范畴将会越来越多,但是很多时候他们的范畴都是相对独立的。那些共享底层逻辑范畴,他们是还没办法归类总结的。 比如当他知道爸爸是爸爸,但他却没办法迁移这个爸爸的概念,也没办法理解爸爸的爸爸为什么是爷爷。从这个角度拓展开来看,我们也是一样, 在我们的认知中,肯定存在很多范畴,而且确实有很多范畴本可以具有共通性,但是我们并没有发现其共通性,也没办法利用其共通性去理解更多的事物。 我在编码解码的这篇文章中也提到了广泛的编码能力这回事,其本意也就是在说:提炼不同范畴的共通性。

father grandpa

认知空间

现在你理解的范畴和范畴化,那这个 认知空间 这个词,其实是我参考机器学习中的向量空间自己创造的。学过词向量的同学肯定都很熟悉,使用向量能够表达一个词。 而且这些词在空间中有自己的位置,词与词在空间中的位置关系,表明了词语之间的关系,比如男人和女人的空间距离,其实和国王与皇后距离类似。

w2v

那么用侯世达认识科学的范畴理论,那么人类也是有向量空间(认知空间)的。而且训练的过程和词向量训练过程十分类似,都是大数据的非监督学习。 我们从幼儿时,就一直听到很多不同的词汇,我们是怎么区分不同词的区别呢?比如我们如何学着将妈妈对应上那个照顾我的妈妈呢? 其实我们本身就在做非监督学习,我们听到妈妈这个字的时候,一个长头发的女人就经常一同出现,奶头也会靠近,奶香也随之而来,一张笑脸也会经常共现,温柔的声音也随之而来。 下面训练词向量的画面是不是就立马浮现在你脑海中了。而且我们不光利用了文字信息,还利用了多种模态的信息,包括声音,视觉,嗅觉等。 这就是一个多模态的认知向量训练。

w2v training

到现在为止,婴儿时期多半都是被动地接收信息,我们只是在做 Encoding 的训练。等我们长大了,Decoding 也变得越发重要。具备一定的认知空间后,我们再利用这个初出茅庐的,不成熟的认知空间, 进行空间的转换,将认知空间映射到行为空间,做 Decoding 解码处理。举个例子,现在我已经能成功地将听到的妈妈,映射到我的认知空间对应的位置,下一步,我结合身处的环境, 对这个认知空间进行行为的解码,输出我下一步的行为。Boom,这不就是强化学习吗?那如果我把下一步行为转化成对话, 那不就是个 Seq2Seq 吗? 处处都是机器学习,处处都是人类与机器的共同之处。

seq2seq

这就是为什么我在读这本书的,脑中一直回荡 NLP 的知识的愿意。如果立马就运用刚才讲的结论,也就意味着在我脑中,自然语言处理和人类的认知空间这两者所处的位置十分接近。

用类比理解新概念

我非常清楚机器学习算法中的训练过程,但是人类的学习训练的过程,真的和机器一样吗?前面我们只是讨论以人类学习的皮毛,而且也是一笔带过,只说和机器学习非监督训练很像。 现在我再深挖一下,再下探一下。

现在请你马上回忆一下,你最近的一次学习过程,或者是听到某个新词的时候,你是如何理解他们的?

人类是一种基于经验来生存的生物,我们几乎所有的认知,都是基于生活的经验中推理来的。如果你是 90 后,00 后,那你必定应该听过赛博朋克,我对赛博朋克的理解很明显分了两个阶段, 第一个阶段是认识到,它是一个很炫酷的游戏,我见到了游戏画面,玩家试玩视频等等,这让我建立了对赛博朋克这个词的认知,我把这个认知放在 游戏 的认知空间中。

赛博朋克

可是几个月后,我发现,怎么有时候听不懂别人的聊天了呢?你好赛博朋克啊这么做,真 TM 赛博朋克 等等这类的对话,我就在想,这游戏名字怎么可以这样用? 我没办法理解呀,其他游戏的名字从来没有和这些情绪表达,和这些词汇一起出现过。这时我的认知空间开始动摇了,赛博朋克开始游离出游戏的认知空间。 不过我还是没办法安放这个新的认知,因为我还是不太确定他们在说赛博朋克的时候到底是想表达什么样的情绪。 但随着数据量的上升,我听到的情绪赛博朋克越来越多,我开始尝试将他们分类到炫酷高大上虚幻或者还存在一些羡慕的情绪上。 这就是我一整个学习过程,这也是一个完整的 范畴化 过程。

从上面我经历的赛博朋克的例子,就不难看出,我们一直是通过类比(范畴化)来学习新的概念的。也就是我们需要有一个原始的认知空间,在这个认知空间上寻找对应的领域, 将新向量加入进此领域。但是你以为这样就完了吗?并没有!

深度学习的朋友们,你们肯定知道 finetune 这回事,你想为新数据找到合适的向量空间,但是反过来,新数据也会对原有的向量空间产生影响,甚至会大幅改动原有的空间分布。 当你在学习新知识的时候,如果瞬间感叹,并发出啊哈!的时候,这时候,就是你的原认知空间被新数据改变的时候。所以他们是互相影响的。

这个过程才是学习,利用原有认知,类比迁移去理解新的概念,而且更重要的是,新改变并不是独立存在的,他也会反过来影响改变你的认知空间,铸造新的认知空间分布。

终于,我把最重要的概念说完了。接下来,看看如何利用这个概念吧。

如何学习

很多人非常苦恼学不好,不会学。当然我以前也会有这样的困惑。不过当我想明白上面这件认知空间的事后,我便有了我的学习方法。Rethink也是建立在这个认知基础之上的

如果学习新知识需要基于原有的认知空间,那么越交叉,约丰富的认知空间,将会给你更强健的理解基石。我在广泛学习编码解码的文章中都表达过类似思想。 甚至我最近在 《认知天性》这本书中也看到了类似的观点。

简单来说,我们要认识到,任何领域,学科都可以关联起来,我们要构建一个认知整体,所以请在学习的时候多回忆不相关的领域,并且尝试连接它们,让你的整体认知更加牢固, 在知识图谱中的边更加茂密,不可分割。

kg

每次学习都是对整体的一次更新,添加新的认知,和修改原有体系的认知。这就是我认为的 学习 。利用类比,网状思维,解决新的问题。

还要强调的一点,如果你的学习动机是自己,而不是学校/老师/家长,那么恭喜你,你这时候的学习动机才是正确的,而且你去丰富认知空间中的链接才对你有意义。

总结

人学习和机器学习的本质其实并不是完全不能类比,机器对事物的理解和人对事物的理解也并不是完全不能类比。我认为仅仅只是构建认知的手段不一样, 目前很多机器用的手段是梯度更新,而人是构建新的神经链接(虽然现在科学家并不是很确定是不是这样)。

我对学习这回事一直抱有很强的兴趣,也会一直输出我对学习,认知的理解。说不定,以后还有机会在认知科学中,出一份力呢。


降低知识传递的门槛

莫烦经常从互联网上学习知识,开源分享的人是我学习的榜样。 他们的行为也改变了我对教育的态度: 降低知识传递的门槛

如果你和莫烦一样,对知识的沉淀、学习、思考、独特见解有兴趣,欢迎通过微信验证加群,我们用行动促进知识的传递。 (请备注:"rethink",不然无法通过验证)

wechat