文本复述,中文文本数据增强

机器学习AI算法工程

共 6064字,需浏览 13分钟

 ·

2021-03-17 11:52


向AI转型的程序员都关注了这个号👇👇👇

人工智能大数据与深度学习  公众号:datayx


一.概述
文本复述任务是指把一句/段文本A改写成文本B,要求文本B采用与文本A略有差异的表述方式来表达与之意思相近的文本。
改进谷歌的LaserTagger模型,使用LCQMC等中文语料训练文本复述模型,即修改一段文本并保持原有语义。
复述的结果可用于数据增强,文本泛化,从而增加特定场景的语料规模,提高模型泛化能力。

二.模型介绍

谷歌在文献《Encode, Tag, Realize: High-Precision Text Editing》中采用序列标注的框架进行文本编辑,在文本拆分和自动摘要任务上取得了最佳效果。
在同样采用BERT作为编码器的条件下,本方法相比于Seq2Seq的方法具有更高的可靠度,更快的训练和推理效率,且在语料规模较小的情况下优势更明显。

谷歌公开了本文献对应的代码,但是原有任务与当前任务有一定的差异性,需要修改部分代码,主要修改如下:


A.分词方式:原代码针对英文,以空格为间隔分成若干词。现在针对中文,分成若干字。


B.推理效率:原代码每次只对一个文本进行复述,改成每次对batch_size个文本进行复述,推理效率提高6倍。


三.文件说明和实验步骤
1.安装python模块 参见"requirements.txt", "rephrase.sh" 2.训练和评测模型
文件需求 bert预训练的tensorflow 模型
采用RoBERTa-tiny-clue(中文版)预训练模型。 网址

https://storage.googleapis.com/cluebenchmark/pretrained_models/RoBERTa-tiny-clue.zip


如果想采用其他预训练模型,请修改“configs/lasertagger_config.json".

代码跑通顺序:第一种方法:修改运行rephrase.sh 第二种方法详解: 

第一步:制作训练测试验证集 python get_pairs_chinese/get_text_pair_lcqmc.py 获得lcqmc中的文本复述语料(语义一致的文本对,且字面表述差异不能过大,第三列为最长公共子串长度与总长度的比值)
只需要修改lcqmc的目录位置即可
python get_pairs_chinese/get_text_pair.py 可根据自己的预料获得文本复述语料(第三列为最长公共子串长度与总长度的比值)
再运行merge_split_corpus.py 将 结果数据 按比例划分 训练、测试、验证集

第二步:短语_词汇表_优化 python phrase_vocabulary_optimization.py
--input_file=./data/train.txt
--input_format=wikisplit
--vocabulary_size=500
--max_input_examples=1000000
--enable_swap_tag=false
--output_file=./output/label_map.txt

第三步:
1、制作后续训练模型的验证集
python preprocess_main.py
--input_file=./data/tune.txt
--input_format=wikisplit
--output_tfrecord=./output/tune.tf_record
--label_map_file=./output/label_map.txt
--vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
--max_seq_length=40
--output_arbitrary_targets_for_infeasible_examples=false 2、制作后续训练模型的训练集
python preprocess_main.py
--input_file=./data/train.txt
--input_format=wikisplit
--output_tfrecord=./output/train.tf_record
--label_map_file=./output/label_map.txt
--vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
--max_seq_length=40
--output_arbitrary_targets_for_infeasible_examples=false


第四步:
1、训练模型
python run_lasertagger.py
--training_file=./output/train.tf_record
--eval_file=./output/tune.tf_record
--label_map_file=./output/label_map.txt
--model_config_file=./configs/lasertagger_config.json
--output_dir=./output/models/wikisplit_experiment_name
--init_checkpoint=./data/RoBERTa-tiny-clue/bert_model.ckpt
--do_train=true
--do_eval=true
--train_batch_size=256
--save_checkpoints_steps=200
--max_seq_length=40
--num_train_examples=319200
--num_eval_examples=5000
2、 模型整理
python run_lasertagger.py
--label_map_file=./output/label_map.txt
--model_config_file=./configs/lasertagger_config.json
--output_dir=./output/models/wikisplit_experiment_name
--do_export=true
--export_path=./output/models/wikisplit_experiment_name


第五步 根据test文件进行预测
python predict_main.py
--input_file=./data/test.txt
--input_format=wikisplit
--output_file=./output/models/wikisplit_experiment_name/pred.tsv
--label_map_file=./output/label_map.txt
--vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
--max_seq_length=40
--saved_model=./output/models/wikisplit_experiment_name/1587693553
# 解析,这应该是最后保存的模型文件名称 可以考如下语句获得
# (ls "./output/models/wikisplit_experiment_name/" | grep -v "temp-" | sort -r | head -1) 第六步 对第五步预测的文件进行打分。
python score_main.py --prediction_file=./output/models/wikisplit_experiment_name/pred.tsv

#根据自己情况修改脚本"rephrase.sh"中2个文件夹的路径,然后运行 sh rephrase.sh
#脚本中的变量HOST_NAME是作者为了方便设定路径使用的,请根据自己情况修改;
#如果只是离线的对文本进行批量的泛化,可以注释脚本中其他部分,只用predict_main.py就可以满足需求。

3.启动文本复述服务 根据自己需要,可选
根据自己情况修改"rephrase_server.sh"文件中几个文件夹的路径,使用命令"sh rephrase_server.sh"可以启动一个文本复述的API服务
本API服务可以接收一个http的POST请求,解析并对其中的文本进行泛化,具体接口请看“rephrase_server/rephrase_server_flask.py"
有几个脚本文件如rephrase_for_qa.sh,rephrase_for_chat.sh,rephrase_for_skill.sh是作者自己办公需要的,可以忽略

四.实验效果

  1. 在公开数据集Wiki Split上复现模型:
    Wiki Split数据集是英文语料,训练模型将一句话拆分成两句话,并保持语义一致,语法合理,语义连贯通顺。


  1. Exact score=15,SARI score=61.5,KEEP score=93,ADDITION score=32,DELETION score=59,
    基本与论文中的Exact score=15.2;SARI score=61.7一致(这些分数均为越高越好)。


  2. 在自己构造的中文数据集训练文本复述模型:
    (1)语料来源
    (A)一部分语料来自于LCQMC语料中的正例,即语义接近的一对文本;
    (B)另一部分语料来自于宝安机场用户QA下面同一答案的问题。; 因为模型的原理,要求文本A和B在具有一定的重合字数,故过滤掉上述两个来源中字面表述差异大的文本,如“我要去厕所”与“卫生间在哪里”。对语料筛选后对模型进行训练和测试。
    (2)测试结果:
    对25918对文本进行复述和自动化评估,评测分数如下(越高越好):
    Exact score=29,SARI score=64,KEEP score=84,ADDITION score=39,DELETION score=66.
    CPU上耗时0.5小时,平均复述一句话需要0.72秒。
    可能是语言和任务不同,在中文文本复述上的评测分数比公开数据集高一些。


五.一些trick
1.可以设定对于某些字或词不做修改 如对实体识别NER的语料泛化,需要保证模型不能修改其中的实体;
对业务语料泛化,也可以根据情况保证模型不能修改其中的关键字 如日期,航班号等;
目前,是通过正则的方式定位这些不能被模型修改的位置,然后将这些位置的location设置为1,具体实现参见tagging.py.
2.增加复述文本与原文本的差异度
可以对训练语料中的text_a先进行随机的swag操作,相应地脚本中enable_swap_tag改为true,再训练模型将其改写为text_b;
实际应用或测试时同样将原始文本text_a先进行随机的swag操作,然后利用模型改写为text_b;
因为训练语料中text_a是不通顺,但text_b是通顺的,所以实际应用或测试时仍然会得到通顺的复述结果。

六.数据集
1.由于不少人咨询我数据集的问题,现将数据集地址贴在下面
You can download LCQMC data set from https://download.csdn.net/download/tcd1112/12357994,But other data is the company data can't give you. You can also leave your E-mail, I will send you LCQMC data



阅读过本文的人还看了以下文章:


TensorFlow 2.0深度学习案例实战


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《美团机器学习实践》_美团算法团队.pdf


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


特征提取与图像处理(第二版).pdf


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


PyTorch深度学习快速实战入门《pytorch-handbook》


【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》


《Python数据分析与挖掘实战》PDF+完整源码


汽车行业完整知识图谱项目实战视频(全23课)


李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材


笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!


《神经网络与深度学习》最新2018版中英PDF+源码


将机器学习模型部署为REST API


FashionAI服装属性标签图像识别Top1-5方案分享


重要开源!CNN-RNN-CTC 实现手写汉字识别


yolo3 检测出图像中的不规则汉字


同样是机器学习算法工程师,你的面试为什么过不了?


前海征信大数据算法:风险概率预测


【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类


VGG16迁移学习,实现医学图像识别分类工程项目


特征工程(一)


特征工程(二) :文本数据的展开、过滤和分块


特征工程(三):特征缩放,从词袋到 TF-IDF


特征工程(四): 类别特征


特征工程(五): PCA 降维


特征工程(六): 非线性特征提取和模型堆叠


特征工程(七):图像特征提取和深度学习


如何利用全新的决策树集成级联结构gcForest做特征工程并打分?


Machine Learning Yearning 中文翻译稿


蚂蚁金服2018秋招-算法工程师(共四面)通过


全球AI挑战-场景分类的比赛源码(多模型融合)


斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


python+flask搭建CNN在线识别手写中文网站


中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  



机大数据技术与机器学习工程

 搜索公众号添加: datanlp

长按图片,识别二维码



浏览 127
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报