NLP模型的多种应用 - 自然语言处理 | 莫烦Python
切换视频源:

NLP模型的多种应用

作者: 莫烦 编辑: 莫烦 2020-12-14

学习资料:

为了让你的机器成功理解人类语言, 我们前面的课程中介绍的方法, 就已经可以让机器懂得最基础的语言信息(词汇), 逐步进化到理解句子

course

而且为了更好的看透看懂一句话, 我们发现可以利用人类独特的注意力机制,为计算机找到一句话的重点, 而不会轻易会错意。甚至也发现,对于同一句话,我分多次的进行注意,用不同的方式注意, 可以对这句话有更加深度的理解。

所以,现在在理解语言上,计算机的确能将它转化成自己的(向量)理解,但是光是看懂,理解可能还不能解决我们生活中各种问题。 接下来,我们就在这一节中聊一聊基于对语言的理解,我们还能做些什么事情。 这也是我为你总结的 NLP 可以发展的方向。

在这里也想恭喜你终于完成了自然语言处理中最最重要的一步 - 让计算机理解语言。 为了真正踏入NLP行业,下面的内容将会是你继续深入研究NLP的方向指引。

分类

最容易想到的一种NLP应用就是将语言进行分类了。 不管你用什么模型(RNN,ELMo, GPT还是BERT), 甚至是未来还未研发出来的模型。他们都可以算是一种理解语言(语言向量化)的模型。

所有的分类,都是对语言的向量化表示进行训练,将这种向量化表示(语言特征)分类到某些类别中。

情感分析

情感分类是NLP分类任务中最为常见的一种应用了,它在我们生活中随处可见。比如应用最多的舆情分析, 网上的言论太多了,如果我们想的到当前民众对某件事情的看法, 我们不可能一条一条阅读完所有的对话,然后给出结论。这时候就是AI模型可以出马的时刻了。

批量性地对语言进行正负程度的分类,快速得到情感趋向,这对于决策者做快速决策是特别重要的事情。 这里不得不提,现在已经有很多股票交易者采取这种方法分析舆论和行情,用于对买卖的判断基准。 政府决策也可以通过这种途径获取民意信息。

sentiment

而且像影评情感获取,商品评论情感,都可以用这种方式获取。

decision

搜索

搜索是我们生活中必不可少的场景,几乎每个人都会在一天中某些时刻用到搜索功能。 我们介绍过快速的搜索算法是如何工作的, 剖析了在搜索引擎的构造,也自己手写了一个小小搜索引擎。 现在我们在通过不同的视角重新看到以下搜索的发展, 从我看待搜索的角度出发,大致我想我可以把搜索分成公开搜索私密搜索

公开搜索

互联网上的公开信息搜索,或者说是别人想让你看到他们给你的信息,私密搜索更像是你搜自己的东西。 百度google都是公开搜索的一种,它们汇集的互联网上的各种信息,等着你去发掘。 这里我还想提一下垂类搜索的概念,目前所有通用搜索引擎比如百度的搜索流量都在被各种垂类搜索入口瓜分, 比如淘宝,微信搜一搜。这些应用会构建自己的搜索引擎,主动将自己的材料信息与通用搜索引擎隔离开。 对自己的垂类场景做深度的定制化改造,做出来的搜索功能也更符合当前场景中的背景。

search_engine

更重要的是,如果你有了搜索的入口,怎么展示搜索结果,在搜索结果中加入什么额外信息都取决于你, 这里面是有利可图的。

私密搜索

你已经有途径去搜索到外面的信息。但是对于你自己,是不是已经慢慢察觉到自己产生的信息也已经过载或爆炸了, 你是不是也找不到那些久远的,没有整理过的信息啦?在这种场景中,搜索还有很多工作可以做,还算是蓝海吧。

spotlight

类似于MacOS的 Spotlight,它就是你个人信息的便捷搜索功能。而且我们现在已经很常将个人文件放在网盘中, 当网盘与搜索结合的时候,才真正为网盘添加了核心功能。最好的模式,就是你不用担心文件要按什么规则存放, 只要你想找文件时,引擎都能帮你找到。

google_drive

另外为这种搜索场景定制的核心功能是,多模态搜索。 因为你的文件是五花八门的,有图片,pdf,docx,zip,视频,在线文档等, 如何提取这些文件中的信息也是私密搜素的重点问题。总结下来,私密搜索就是你无从安放的数据最好的救星。 (比如说我哪1TB的照片和视频。。)

问答

问答是NLP中另外一个非常重要的场景,不管是我时常面对的客服机器人,还是每天都记起我,给我打电话的推销机器人, 甚至我在外面欠债了,催债机器人都可能是一套问答系统。

chatbot

知识图谱

在某些问答系统中,最为核心的技术是知识图谱。如果我被你问到一个我不懂的问题,作为人,我该怎么办呢? 我还不就是去搜索引擎上拿到对应的信息,然后回答你。同样,机器在做问答的时候,它也不是想到啥就是啥, 它也有一套关系型图谱系统,在图谱网络中,我们的线就是关系,节点就是实体,实体和关系组成了一整套关系网络。 如果我跨越6个朋友就能联系到美国总统,那么,知识图谱也类似,跨越6条边和节点,就能联系到任何节点 (当然这里的6是我瞎编的)。

kg

有了这样一套图谱,即使你的问题是:姚明的老婆的爸爸的姨妈的哥哥的姐妹的孙子的大表叔是谁,它都能通过一条条边的跳转,最终帮你找到那个人。 在商场中的导览系统,百度百科,学科百科大多也会有知识图谱的影子。

近几年,这种边和节点的关系也在图神经网络中有非常深度的研究,用神经网络表示图信息也是非常有趣的一件事。

任务型机器人

任务型机器人在智能机器人中有非常多的应用。比如智能音响(小爱同学,google now)等等,他们最擅长的一件事也包括处理任务。 这里的任务代表的是像下面这样的事情。

  • 查「深圳」「明天」的天气
  • 定「下午2点」的闹钟
  • 播放「周杰伦」的「爱我别走」
  • 打电话给「奶奶」
  • 帮我订「后天」「成都」飞「北京」的机票
  • 一些需要触发的指令(通常还带着可以变化的信息)

机器人首先判断出这是哪一项任务,然后再去找任务中需要的信息条件。比如查「深圳」「明天」的天气 是一项查天气的人任务, 需要查的地点是「深圳」,时间是「明天」。所以这一项技能的确是对话系统中不可缺少的一环。

FAQ

哪天我做一个商店,我必然会有FAQ的功能,因为如果每天客户问的问题都类似,我完全能提前整理出来, 然后他们可以在FAQ中找到答案,这样能省去我大量的时间。

faq

NLP 在 FAQ 当中的应用算是比较常规的,FAQ本质是搜索到最相近的问题,然后将这个问题对应的答案返回给用户。 在用户问题和数据库当中的问题进行比对的时候,我们通常就可以采用NLP的模型进行句子之间的相似度打分,得分高的, 我们就返回这个问题对应的答案。当然,如果不用深度学习的模型也行,使用TF-IDF类型的方法也能在这种场景中发挥作用。

聊天

聊天其实算是一种服务,在我寂寞,无聊,需要安抚的时候,都可以使用。而聊天这种技术,其实大多数时候,比较类似于上面的FAQ, 都是找到数据库中类似的问题,然后返回这个问题下的答复。所以整体的思路可以按照FAQ来做。

当然,更优秀的闲聊机器人可以完全只依赖于深度学习,用 Seq2Seq 来实现一种生成模型。 如果我的聊天机器人做得好的话,还可以将它产业化,变成撩妹机器人,哇哈哈哈,再也不用担心我找不到女朋友了。 下面图片中的项目来自于这里

chatboy

在所有的对话系统中,其实我们通常是整合了多种机器人的,比如知识图谱+任务型+FAQ+闲聊,把它们汇集到一起,变成一个机器人, 充当我们生活中的伴侣机器人。

生成

其实上面有一些部分就体现了生成,比如聊天机器人中的闲聊就可以运用生成的方式来做。 当然,在NLP中,我们的翻译算是生成任务当中的大头,它可以占据生成任务的一大半江山。 而且商业化的道路也十分的通畅。

翻译

具体的方案不用我细说,你们应该都知道,它运用的就是 Seq2Seq 的模式,至于前一个 Seq encoder 是什么模型, 就可以按需挑选一个你喜欢的,不管是 BERT 也好,还是RNN也好,总之,encoder只负责理解。至于生成任务就得交给一个 Decoder 了。这个Decoder怎么定义也是按照你具体的项目来的。

创作

除了翻译,用NLP来创作也是可以的,比如生成高考作文

composition

在介绍GPT的时候也介绍了,可以生成神经网络等等。

net

在模型融合中,我们也可以将计算机视觉和自然语言融合起来,做一种跨界任务,看图说话等等。

cv_nlp

未来

未来还真不好说,如果有一种新的技术诞生,我们可能又会朝着新的方向前进的。但是有一点是肯定的,未来的人机交互模式很可能会有飞跃性的发展。 想想我现在还在使用鼠标和键盘在写文章,写代码,做设计。只要计算机能够读懂你的语言(已经差不多做到了), 并且也能按你的意思与做事,这就是新一代的人机交互模式呀,新的计算机系统呀。 有部电影 Her 就是描述的这件事情。

her 真的很期待这一天到来。

感谢有你们陪伴

好了,这就是莫烦Python的全部NLP教学了,不过如果哪天又有新技术,我可能还是会补充一些内容放在课程中的。 很激动,你们真的能够跟着我一起学习,一起进步,看完所有NLP的教学,这已经是对我继续做下去最大的鼓励了。 我也非常感动,我的用心,能够被别人看到,甚至帮助到别人。

我很常从Email,留言,朋友圈中得知,看过我教学的朋友在学术上,在工作上都有非常大的改变与进步,我真的太欣慰了。 我愿意再以学习者的身份伴你一同前行。

莫烦Python,感谢有你。


降低知识传递的门槛

莫烦很常从互联网上学习知识,开源分享的人是我学习的榜样。 他们的行为也改变了我对教育的态度: 降低知识传递的门槛免费 奉献我的所学正是受这种态度的影响。 通过 【赞助莫烦】 能让我感到认同,我也更有理由坚持下去。