小样本文本数据分析-轻识

今后10年里，非结构化数据将占所有生产的互联网数据的90%。

国际数据公司（IDC）2011年调查报告

引言

互联网媒介发展日益瞩目，移动APP、博客、微信、论坛等媒体接踵而至，在悄无声息中改变了我们的生活方式。这些交互性强、容易沉淀价值信息的社交数据，往往包含着大量用户的基本信息和兴趣标签，是企业用来发掘商机、认知用户的绝好原料。

举例来说，某个APP的用户满意度的变化，可以从服务评价的几颗星来衡量，但是无从得知客户为什么给予好评或差评，也无法针对客户不满意处进行优化改进。因此，我们需要挖掘更多的客户“声音”，通过主动收集或被动采集更多用户的行为或言论信息帮助洞察潜在问题和真实需求。这些数据主要来源于如下几个场景：客户反馈和点评、与客服与销售人员的交流记录、社交媒体或网站的帖子、新闻媒体、用户调研等，其中绝大部分都是非结构化的文本数据。

零售金融业务中，已经存在大量这类信息，例如在线客服保有与客户的聊天沟通记录；呼叫中心存有大量的客户来电语音，可通过成熟的语音识别技术转化为文本记录；实体服务网点也会记录客户诉求或反馈信息。这些信息主要以非结构化的文字文本的方式存储在IT系统里，无法直接使用，需要通过专有的技术来分析和挖掘。

一

自然语言处理（NLP)

自然语言处理（NLP）是一种使计算机理解人类自然语言的技术和方法，将非结构化的语言文本转化为计算机能够处理的结构化信息，从而使之可以完成理解人类意图并与人类直接沟通的任务。

图1 NLP—连接桥梁

NLP 可以使用传统的机器学习方法来处理，也可以使用深度学习的方法来处理。两种不同的方法对应不同的处理步骤，如下图所示。

图2 NLP的两种方法

基于大数据的文本分析技术具有快速识别海量非结构化文本中的关键信息和关联，甚至实时监测舆情和传播趋势。但是在传统金融交互场景下，存在大量的对话或短语的形式的交互文本。由于现有语音转文本存在一定的误差，并且存在大量方言、语气词、口语化表述，而汉语又是典型的分析语（没有词性、时态等来辅助表达含义），因此在进行这类语义识别上往往需要依赖上下文或语境，采用传统的自然语言处理技术还远远不够。

二

小样本数据分析

小样本学习旨在通过少量样本学习到解决问题的模型。近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得突破性进展和较好的效果。一般来讲，深度学习的成功可以归结于三个关键因素：强大的计算资源（例如GPU）、复杂的神经网络(如CNN、LSTM)、大规模数据集。但许多现实的应用场景没有条件获取足够的带标签的训练样本，拥有从少量样本中学习和概括的能力，是将人工智能和人类智能进行区分的明显分界点，小样本学习能够帮助提升在短语或对话语义识别上性能和效果。

1.文本预处理

在分析原始文本前通常需要对语料进行预处理，处理包括分词、词性标注、去停用词、情感标注等几个步骤，合适的预处理能够有效提升分析的效果。

分词：分词是中文文本分析中特有的也是重要的任务，正确的分词可以帮助我们更好的构建模型、运用算法分析。为了提高准确性，需要构建业务领域专用词词库，例如金融专业术语、机构网点名称、企业特色产品名称等。

词性标注：指为分词结果的每个词标注正确的词性，即确定每个词是名词、动词、形容词或其他词性的过程。

停用词：连词、虚词、语气词等无意义的词以及标点符号，在处理文本数据之前（或之后）会自动过滤掉。

例如“我从未激活信用卡，但是现在却收到账单还款通知”分词结果、词性标注和去停用词如下表所示。

表1 语料预处理流程

情感标注：就是判断句子是积极还是消极的，一般依靠预先标注褒义词贬义词、客观词主观词的词典来判断句子的感情。情感标注可以帮助我们分析客户的情感倾向。

另外，在预处理中还需要考虑解决形近词、同音字、异体字、简称缩写这类等价词替代问题。

2.文本分析

文本分析分为训练和预测两个模块。训练模块接收已标注的文本数据，经过特征提取和语料标签的处理，选取机器学习算法进行训练。常见的机器学习算法包括逻辑回归、决策时、支持向量机、随机森林、xgboost等。

预测模块传入未标注的文本数据进行特征提取，输入已经训练完成的文本模型中，实现NLP的目标任务，包括文本分类、情感分析、机器翻译和对话系统等。

图3 文本分析流程

3.分析的成果

小样本文本分析的成果之一是语料的标签化。分析得到的文本分类能够根据客户特征生成客户标签，从而形成客户画像，定位目标客群。对话系统能够根据客户反馈的文本特征生成体验标签，进而形成实时交互、定时推送等个性化服务，有助于提升客户体验。

金融机构日常与客户的交互中会产生大量文本数据，如语音交互、体验评价、行为埋点、运营数据等。通过小样本文本分析，实时提取这些文本的关键词信息，再根据关键词规则给客户打上标签，定位客户旅程。结合金融机构的运营诉求，形成“监测-分析-改进-追踪”的管理闭环，最终实现客户体验的改善。

图4 体验评价体系与管理闭环

三

应用场景

随着文本分析和挖掘技术的成熟，计算机可以更好、更快、更准的理解人类自然语言，存在着广阔的应用场景。

了解客户反馈：基于海量的非结构化信息，正确的理解用户散落在各渠道的声音，读懂用户的想法，挖掘出用户对于产品和服务的偏好以及随时间发展的变化情况。
客户关系管理：通过实时监测客户在使用产品、与服务人员和客户经理沟通记录、直接反馈信息的内容，挖掘出客户对于产品和服务的情绪和态度，是否存在负面或者投诉的倾向，结合客户旅程信息，捕获出在业务流程中存在的问题，不仅可以及时与客户沟通进行关系维护，还能够改善流程，优化客户体验。
舆情和口碑监测分析：通过大数据分析能够快速准确识别出企业及竞争对手在互联网上的热点信息和口碑变化，分析传播路径、传播节点、发展态势和受众反馈，为管理决策提供科学依据。
智能问答系统：从大量历史开放式问答记录中提取出有价值的、有共性的知识点，形成基于知识图谱的对话库。在智能客服和虚拟客服场景，能够高效准确地完成与客户的交流和沟通。

表2 NLP应用场景

结束语

由随着人工智能在图像识别、语音识别领域的大放异彩，人们对其在自然语言分析上的能力也寄予厚望，并且逐步在多个应用领域崭露头角。虽然语言的本质使一些自然语言处理短期还不能有效地形式化，例如自动检测文本中的讽刺、反讽和隐含性的任务尚未得到有效解决，但是本文分析和挖掘技术将在商业实践中逐步体现出越来越大的商业价值。

(欢迎大家加入数据工匠知识星球获取更多资讯。)

联系我们

扫描二维码关注我们

微信：SZH9543

邮箱：ccjiu@163.com

QQ：2286075659