【NLP】调研|医疗领域预训练语言模型设计方法-轻识

本文基于调研的 14 篇医疗预训练语言模型的论文，总结了目前设计医疗领域预训练语言模型的方法，这些方法主要可以分为三类：1）基于医疗领域数据进行继续预训练；2）基于医疗领域数据从头进行预训练；3）基于医疗领域设计的自监督任务进行预训练。

1 继续预训练

BioBERT通过BERT初始化权重，基于生物医学领域语料库进行继续预训练；BlueBERT 通过 BERT 初始化权重，基于 PubMed 摘要和 MIMIC-III 临床笔记进行继续预训练；ClinicalBERT 通过 BERT 初始化权重，基于临床笔记语料进行继续预训练；SciBERT 采用了两类预训练方法，一类是基于 BERT 在领域语料继续预训练，一类是基于领域语料自建词表从头预训练，其中的语料库包括 18%来自计算机科学领域的论文全文和 82%来自广泛的生物医学领域的论文全文。

2 从头预训练

PUBMEDBERT 基于领域语料从头进行预训练；BioELECTRA 基于领域语料从头进行预训练，一方面引入了替换 token 预测预训练任务，该任务训练模型以区分真实输入 token 和合成生成的 token，在输入文本中选择随机词，并用小型生成器网络生成的 token 替换，然后，鉴别器网络预测输入 token 是原始的还是替换的，另一方面去除了下一句预测任务；DiLBERT 从 ICD-11、PubMed 和 Wikipedia 构建词表并从头预训练模型。

3 域自监督预训练

MC-BERT 模型将实体和语言领域知识注入表示学习中进行继续预训练，其中掩码策略采用 whole entity masking 和 whole span masking，并使用 NSP 任务。whole entity masking 是掩码医学实体，这些医学实体是利用中文生物医学知识图谱和生物医学命名实体识别来获得的。whole span masking 是掩码医学短语，这些医学短语是通过 Autophrase 和阿里巴巴认知概念图谱获得的；SMedBERT 将知识图谱中的医疗实体和实体关系中的结构化语义信息同时引入到预训练模型中。一方面利用 Mention-neighbor Hybrid Attention 获取 linked-entity 的相邻实体信息，分别引入 type-level 和 node-level 学习相邻实体对于 linked-entity 的重要程度，同时将结构化语义知识注入编码层。另一方面利用 Mention-neighbor Context Modeling 引入链接实体所在上下文的信息，同时对相邻实体也做 mask 处理。最后使用 SOP 和 MLM 构成总的损失；diseaseBERT 将 BERT 与疾病知识相结合，利用维基百科的结构作为一种弱监督信号，将医学术语及其类别作为标签进行预训练；EMBET 是一种实体级知识增强的预训练语言模型，它通过三个自监督的任务捕获医学术语之间的细粒度语义关系，包括 i）上下文实体一致性预测（在给定的特定上下文中，实体是否在意义上等价），ii）实体分割（将实体分割为细粒度语义部分）和 iii）双向实体掩蔽（预测长实体的原子或形容词术语），在这个任务中，屏蔽其中一个组件，并根据另一个组件进行预测，反之亦然；BERT-MK 将知识图谱中的任意子图作为训练示例，子图中的关系和实体被视为等价的节点以进行嵌入的联合训练，通过类似于训练语言模型的方式将每个节点的更全面的上下文信息合并到所学习的知识表示中。在模型预训练的过程中，首先，在 UMLS 三元组和 PubMed 语料库上训练医学 ERNIE（MedERNIE）模型，继承了 ERNIE-Tsinghua 中使用的相同模型超参数，此外，通过上述 KRL 方法学习的实体嵌入被集成到语言模型中来训练 BERT-MK 模型；UmlsBERT 通过一种新的知识增强策略，在预训练过程中集成了领域知识。更具体地说，使用统一医学语言系统（UMLS）元叙词表对 UmlsBERT 进行扩充，方式包括：（i）连接在 UMLS 中具有相同基本“概念”的单词（ii）利用 UMLS 中的语义类型知识创建具有临床意义的输入嵌入；SAPBERT 是一种生物医学实体表征的自对齐预训练方案。通过利用现有的 BERT 模型，学习将生物医学名称与 UMLS 知识图谱中的同义词对齐，并通过在线样本挖掘在一个小批量中找到难的正/负对或三元组，以便进行有效的训练。

参考资料

[1]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[2]Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: an evaluation of BERT and ELMo on ten benchmarking datasets[J]. arXiv preprint arXiv:1906.05474, 2019.

[3]Huang K, Altosaar J, Ranganath R. Clinicalbert: Modeling clinical notes and predicting hospital readmission[J]. arXiv preprint arXiv:1904.05342, 2019.

[4]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[J]. arXiv preprint arXiv:1903.10676, 2019.

[5]Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computing for Healthcare (HEALTH), 2021, 3(1): 1-23.

[6]raj Kanakarajan K, Kundumani B, Sankarasubbu M. BioELECTRA: pretrained biomedical text encoder using discriminators[C]//Proceedings of the 20th Workshop on Biomedical Language Processing. 2021: 143-154.

[7]Zhang N, Jia Q, Yin K, et al. Conceptualized representation learning for chinese biomedical text mining[J]. arXiv preprint arXiv:2008.10813, 2020.

[8]Zhang T, Cai Z, Wang C, et al. SMedBERT: A knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J]. arXiv preprint arXiv:2108.08983, 2021.

[9]He Y, Zhu Z, Zhang Y, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[J]. arXiv preprint arXiv:2010.03746, 2020.

[10]Cai Z, Zhang T, Wang C, et al. EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham, 2021: 242-257.

[11]Roitero K, Portelli B, Popescu M H, et al. DiLBERT: Cheap Embeddings for Disease Related Medical NLP[J]. IEEE Access, 2021, 9: 159714-159723.

[12]He B, Zhou D, Xiao J, et al. Integrating graph contextualized knowledge into pre-trained language models[J]. arXiv preprint arXiv:1912.00147, 2019.

[13]Michalopoulos G, Wang Y, Kaka H, et al. Umlsbert: Clinical domain knowledge augmentation of contextual embeddings using the unified medical language system metathesaurus[J]. arXiv preprint arXiv:2010.10391, 2020.

[14]Liu F, Shareghi E, Meng Z, et al. Self-alignment pretraining for biomedical entity representations[J]. arXiv preprint arXiv:2010.11784, 2020.

END


往期精彩回顾




适合初学者入门人工智能的路线及资料下载
(图文+视频)机器学习入门系列下载
中国大学慕课《机器学习》（黄海广主讲）
机器学习及深度学习笔记等资料打印
《统计学习方法》的代码复现专辑
机器学习交流qq群955171419，加入微信群请扫码：