文本挖掘
文本挖掘是一种从文本数据中抽取有价值的信息和知识的计算机处理技术,也是自然语言处理的热门话题。本书主要介绍整洁数据的文本挖掘与分析。整洁数据具有简单且新颖的结构,对其进行分析会更有效、更容易。本书的所有代码都是基于R语言来编写的,采用tidytext软件包以及其他整洁工具来挖掘文件中的有用信息,并用图形展示出来,这对理解文本内容非常有帮助。本书提供了非常有用的真实案例,这会为对文本分析工作感兴趣的人提供有价值的信息。
Julia Silge,Stack Overflow 数据科学家,负责复杂数据集分析及与不同受众进行技术主题交流。 拥有天体物理学博士学位,热爱简·奥斯汀和制作美丽的图表。
David Robinson,Stack Overflow 数据科学家,普林斯顿大学定量与计算生物学博士。喜欢开发开源R包,包括 broom、gganimate、fuzzyjoin 和 widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。
评论
