产品 | NLP主要落地场景梳理
共 3610字,需浏览 8分钟
·
2022-02-09 17:28
本文主要摘录自中金研究报告《自然语言处理成为企业数字化转型的重要手段》
NLP(Natural Langunge Processing, 自然语言处理)就是用计算机对人类语言进行处理,使得计算机具备人的听、说、读、写能力。该技术可使机器理解并解释人类写作和说话方式,是人工智能最早的应用,也是现在关注度较高的领域。
NLP 技术大体可以分为自然语言理解(NLU)和自然语言生成(NLG)两部分,NLU 主要结合语言学中的音韵学、句法、语义等理论,像人类一样对自然语言进行理解;NLG 负责将理解后的内容以一定结构的文本信息输出。
按照实现方式不同,可以把 NLP 落地应用分为对话机器人(语音语义问答)、阅读理解、智能搜索和机器翻译 四种。这四种 NLP 技术在各行各业都能解决很多问题。
1. 对话机器人
[ 基本思想 ] 机器通过对自然语言问题的理解,利用NLP技术找到相应的答案,最后以搜索引擎查询结果或者语音的形式输出。
[ 落地场景 ] 按照应用范围的不同,对话机器人可以分为通用型对话机器人与专业领域对话机器人。
1.1 通用型对话机器人
多用于 闲聊和咨询日常问题 的场景,该场景下用户对于通用型对话机器人的问答准确性要求不高,更多关注体验和效果。目前搭载通用型对话机器人的主要产品包括:
(1)Siri等手机助手,Cortana、小冰等PC助手
(2)Amazon Alexa、Google Home等智能音箱
由于用户更重视通用型对话机器人的交互体验,因此相较于 Siri 等手机助手,搭载语音交互,并且能够在家居等特定场景完成各种任务的智能音箱更受到用户青睐。 近年来,通用性对话机器人呈现出两个趋势:一是语音交互体验逐渐增强(语音合成技术起重要作用);二是 NLP 技术与问答准确性将是影响智能音箱市占率的重要因素。
1.2 专业领域对话机器人
多用于特定场景、解决特定行业的问题。相较于通用型对话机器人,用户端更关注专业领域对话机器人问答的准确性,服务端需要根据把问答和所处行业的专业知识库、客户关系系统、供应链等其它IT功能相结合。
专业领域问答机器人一般采用SaaS形式向B端商家赋能。具体应用过程中,智能客服利用自然语言处理技术对语义进行分析,判断顾客的意向,再给予相应的回复或转人工。相比单一的人工客服,智能客服的优势主要体现在两方面:一是省成本;二是24小时在线,全天候秒回。目前专业领域对话机器人主要用于电商、医疗、金融等行业的智能客服。
(1)电商领域
- 阿里和乐言合作,推出淘宝客服服务,把自动问答机器人与人工坐席相结合,由机器人首先回答一些问题,当碰到无法回答的问题,可以由人工接手。
- 京东推出客服机器人JIMI,通过分析用户的语义,判断客户的情绪,给予更智能、有情感色彩的回复。
(2)医疗领域
通过智能的人机对话,医疗机构可以使精确导诊服务前置于挂号和就诊前,提高医疗服务效率,改善患者的就医体验。智能导诊帮助解决了三类问题:一是根据症状诊断疾病;二是根据疾病导诊科室;三是直接挂号最匹配的科室大夫。
相比人工导诊,智能导诊具有全天24小时在线、可以匹配医生且精确度更高的优势,能提高医患双方的效率和体验。
- 2018年,依图科技联合腾讯睿知和广州市妇女儿童医疗中心推出“问诊熊”问诊小程序,可以识别518种妇女儿童医疗领域的疾病,涵盖95%以上的领域常见疾病,医生推荐准确率达97.3%。
2. 阅读理解
医疗、教育、金融、司法等众多行业,存在大量的文本信息。很多文字产品篇幅很长,用户需要从头到尾读完之后才能理解内容。同时,对长文本的校验也是非常复杂的工作,需要耗费大量人力反复校验,却不能保证准确性。利用NLP技术,机器可以在输入文本后完成:
2.1 数据结构化
将原本杂乱的文本信息,利用NLP技术对每段文字进行理解,并按照特定的规则将原始文本变成结构化、可查询的数据格式,方便用户使用。
- 典型的代表是AlphaSense(https://www.alpha-sense.com/index.html),一家成立于 2008 年的智能搜索引擎公司。 它从文件、 新闻和研究报告等碎片化信息中集合所有投资信息, 并进行语义分析, 整合相关概念、主题、行业等,方便用户搜索、浏览和分析和金融投资相关的重要数据点及整体趋势。
2.2 校验审核
[ 概 要 ] 主要应用于金融领域,可以极大提升投行/会计审计/银行的效率和准确性。
[ 行业痛点 ] 金融行业文本量大、合规要求高,文本出现问题后果严重。投行的申报材料和基础底稿、会计师事务所的审计报告、银行信贷业务的尽调和审批报告等,对准确度的要求都非常高,然而传统的人工审核方式需要耗费大量人力,效率低,而且很容易出错。
[ 解决方案 ] 依据既定的规则和要求,机器可以利用NLP技术自动审核相应文本,智能化检查后快速出具审核报告,批注错误并解释判断逻辑、提出修正建议。以招股书为例,系统可以实现:
- 财务检查:结合监管机构的披露指引和财务勾稽关系,对IPO文档中披露的信息进行逻辑监控,如各财务报表的会计科目平衡等。
- 文本信息一致性审核:IPO过程中的申报材料、底稿达上千卷,系统可以实现同一文档前后文的一致性、多文件文本信息的一致性校验。
- 其他基础性检测:系统可以识别出错别字、中英文标点符号的错用、专业名词使用不规范等问题。
例如犀语科技为投行部门开发的IPO审核系统,提供错别字识别、第三方对比、多文件一致性检测、财务检查等功能。
2.3 专家系统+医疗/司法
[ 概 要 ] 主要应用于医疗和司法领域,以辅助医生和法官做出判决。
[ 行业痛点 ] 医疗和司法场景都存在大量非结构化的文本信息,而且具有很高的专业性。除此之外,医疗和司法场景都会不断出现新的案例,这对从业人员造成了一定的困惑。
[ 解决方案 ] 由于机器比人类拥有更快的存储记忆能力,计算机利用NLP技术,对医疗/司法行业的专业知识、过往案例等进行大量学习,可以辅助医生/法官进行疾病和案件的诊断和审判。自然语言处理在智能辅诊的典型应用过程如下:
- 从病历、检验单、医嘱等医疗文本中提取患者的性别年龄、临床症状等关键信息,将非结构化数据转化成一致、统一的表格等形式的结构化数据
- 基于提取出的信息,并且让机器掌握医生具备的医疗知识,构建出显示各类医疗信息之间关系的知识图谱,比如患者症状、药物、疾病诊疗等
- 知识图谱可以根据患者的症状诊断疾病,或者根据特定的疾病推断出未来可能出现的症状
2.4 舆情分析
[ 概 要 ] 主要应用于投资领域,辅助投资人做出投资决策。
[ 行业痛点 ] 金融资讯信息十分丰富,难以靠人工阅读并分析所有相关的资讯,但这类定性数据对事件分析、决策辅助、监控预警的重要性越来越显著。利用自然语言处理技术,可以基于语义对包括公司新闻、市场行情、宏观经济、政策法规、社交媒体上的资讯予以抓取和语义分析,监控股民、机构等对市场的态度,并通过知识图谱技术建立事件之间的关联关系,可以实现实时监控、辅助投资等功能。
[ 解决方案 ] 机器利用 NLP 技术,对每一条舆情做情感分析,判断其对股价变动的影响,从而辅助做出投资决策。
- 一家名为kensho(https://www.kensho.com/)的AI公司,其主要产品为warren问答引擎,通过监测财报发布、全球数据环境、经济报告、公司产品发布、FDA药品批准等等多方面的信息,建立起事件与资产之间的相关性,从而预测资产价格走势。2017年初,该公司成功预测了特朗普当选后, 美元重回涨势, 以及科技股的反弹。
2.5 智能写作
[ 概 要 ] 主要应用于传媒领域,辅助媒体人自动写稿。
[ 行业痛点 ] 现在互联网聚集海量文本,新闻、微博、朋友圈、微信公众号、头条号等地方每天会产生大量文章。但很多内容作者投入大量精力,实际阅读量非常少,内容投入产出率较低。
[ 解决方案 ] 通过对大量的新闻文本进行语义分析和快速摘要,可以快速形成热点汇总类、新闻聚合类、事件盘点类的新闻稿件,进行自动写作和辅助写作,提升新闻生产效率。
- 今日头条每天会产生很多新闻,2016 年头条发布 “Xiaomingbot” 机器人,经过 1 年多时间训练,“Xiaomingbot”已经能够写体育、财经、地产等多个行业的文章,而且文章的阅读量和记者撰写的文章非常接近,大大提高了今日头条的投入产出比。
- 美国的Narrative Science,从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated Insights,它为美联社自动写出了10亿多篇文章与报告。
3. 机器翻译
主要是使用机器将一种语言的源序列(句子,段落,文档)翻译成相应的目标序列或另一种语言,细节后续补充。
4. 智能搜索
主要是实现语义搜索,细节后续补充。