产品经理如何入门自然语言处理(NLP)?

产品经理读书会

共 2472字,需浏览 5分钟

 ·

2021-06-10 09:18

自然语言处理,顾名思义即自然语言处理的技术,通常用缩写NLP指代。各类产品经理日常的工作中,会遇到大量自然语言处理的应用场景。以智能推荐为例,在待推荐物文本分类、主题分类等场景中都会用到。本篇以产品经理的视角,谈谈如何入门自然语言处理。

统计模型

很多大牛对人工智能的抨击在于,认为人工智能只是统计学,并不是真正的具有「智能」。在当前「弱人工智能」的时代背景下,学习统计模型仍然有非常重要的价值。

拿经常用于分类场景的贝叶斯模型为例,在已经拿到用于训练集的语料中,可以通过统计得出A出现的概率、B出现的概率、在A出现的前提下B出现的概率,计算如果B出现同时A出现的概率(即给定B样本计算出现A的概率),就可以直接从前面三个统计概率计算得出。

当然以上贝叶斯模型成立并且表现良好的前提是数据量足够大,满足大数定律。不难发现统计模型的精髓在于,假设数据量足够大后,可以用已有样本的统计情况,来做判别或预测。

闭环流程

NLP技术应用场景广泛且松散,且在很多情况下,作为中间处理技术流程,不被最终用户所感知。再加上近些年新的自然语言处理技术不断出现,给想入门自然语言处理的产品经理眼花缭乱,不知如何入手的困惑。

入门自然语言处理也需要讲究MVP,以最小可行性的闭环,建立起初步认知,再不断扩展和丰富NLP的知识体系,逐步建立大的框架和认知。

通常的自然语言处理任务可从「分词」—>「构建特征」—>「训练模型」—>「分类或预测应用」。

以上流程中,除了分词外,与机器学习通常流程一样。英文一个个单词本身就是分开的,是不需要分词的。但对于中文来讲,词与词之间是连接在一起的,需要将文本内容,切分成一个个词再处理。

完成分词后,计算机无法直接理解汉字,需要通过将一个个词,编码成计算机可以理解的数字再做处理,这个阶段即构建特征阶段。

特征完成后,再根据自然语言处理任务类型,决定采用哪种算法训练模型,最后将训练好的模型应用于特定的分类或预测任务上。一个自然语言处理任务就完成了。

标注与预处理

前几年从事的智能推荐产品中,推荐系统本身以CTR作为优化目标,实际是将点击与否作为label,相当于用户帮着做了分布式的标注工作。

传统基于统计的自然语言处理任务中,大部分任务类型是有监督学习,需要人在已有语料上做大量的标注工作,才能保证任务的正常进行。

例如情感识别是否为正向情感,就需要人在语料上,将一条条信息标出是否为正向情感。再将此语料作为训练集训练模型,生成情感识别的分类模型用于情感识别。

文档的预处理通常是将拿到的语料做去除标点符号、停用词、数字等处理,去除自然语言无关内容,加快计算机计算和模型生成速度。

在完成以上处理后,可将文档做分词处理,再将词作编码处理即可。

常见任务及算法原理

自然语言处理通常有以下应用场景:分词、词性标注、主题识别、情感识别、文本分类、机器翻译等。下面将主要应用及背后算法原理作简要介绍。

有监督的分类问题。无论情感识别还是垃圾邮件分类,本质上都可以转化为几个目标类型的分类问题。按照贝叶斯公式的逻辑,将已有语料数据进行类型标注,基于统计模型的逻辑,训练得到分类模型,将待识别内容通过模型计算打分,根据阈值即可完成识别。例如二分类的情感识别,可以将0-0.5区间归为消极情感,0.5-1区间归为积极情感。多分类则是计算待分类样本离哪个区间更近,即识别为哪种类型。

无监督的分类问题。自然语言处理中,经常会有主题识别任务,这类任务通常是采用LDA主题模型,核心逻辑是将文章划分为「文档」—「主题」—「词」的三层逻辑,以无监督学习自动完成按照主题的词聚类。由于是无监督学习,需要根据实际情况指定学习出的主题个数,最终选择主题个数最合理的结果。依赖人的主观判断和理解一系列词背后组成的主题。

生成问题。生成问题常见的有文本纠错、词生成、句子生成、机器翻译等。生成问题从统计学逻辑上讲,是基于已有语料的统计,计算出接下来要生成内容的概率。拿机器翻译举例,需要事先准备好中英文对照的大量语料,基于语料,机器学习到中英文词对照、短语对照的知识,最终在翻译场景下,输出中文或英文相应的翻译内容。

再拿隐马尔可夫模型做词性标注举例,基于已经标注的语料,隐马尔可夫模型可以学习到词与词之间词性的状态转移概率,基于这个概率可以计算出一个词属于哪种词性。

深度学习的应用。CNN构建的神经网络,比较适合解决NLP分类问题,但由于没有记忆,无法解决生成问题。RNN相较于CNN可以解决一定长度记忆问题,适合解决NLP领域一定长度的生成问题,例如词生成,但无法保留长期记忆。LSTM具有长期记忆的手段,可以做生成句子的任务。

NLP应用价值

文本是最常见的生产资料,产品经理学习NLP的原理及应用,可以开阔解决问题的视野。

拿在线教育行业举例,利用自然语言处理能力,可以自动识别出学生评论的情感倾向,可以辅助老师进行作文批改、自动出题、自动解题。

不难看出,自然语言处理的应用场景,并非人做不了,而是可以替代人类的手工劳动,大大提升任务的效率,将人解放出来,做更有价值的工作。

推荐课程:


关于作者:

小乐帝,一线大数据&AI产品经理、简书互联网优秀作者、产品经理读书会创始人。

产品社群:

产品经理求职避坑探讨小组:957290281

产业互联网产品交流QQ群:276558817

高级产品经理交流QQ群:872842643

产品经理校招求职QQ群:736083600

AI产品经理探索小组QQ群:634414026

学习转行人工智能/AI QQ群:704965446

「产品经理读书会」

专注于爱读书爱思考的产品人提供读书推荐、产品思考、以书会友的环境

欢迎爱读书的产品人分享产品道路上的感悟

欢迎关注公众号:产品经理读书会






长按二维码关注我们


改变世界




浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报