社交网站的数据挖掘与分析(第2版)
社交网站数据如同深埋地下的“金矿”,如何利用这些数据来发现哪些人正通过社交媒介进行联系?他们正在谈论什么?或者他们在哪儿?本书第2版对上一版内容进行了全面更新和修订,它将揭示回答这些问题的方法与技巧。你将学到如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、 GitHub、邮件、网站和博客等)的数据,以及如何通过可视化找到你一直在社交世界中寻找的内容和你闻所未闻的有用信息。
■ 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站
■ 使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识
■ 通过发现GitHub上人、编程语言和代码工程间的亲密性,构建兴趣图谱
■ 利用D3.js进行交互式可视化,充分发挥HTML5和J...
社交网站数据如同深埋地下的“金矿”,如何利用这些数据来发现哪些人正通过社交媒介进行联系?他们正在谈论什么?或者他们在哪儿?本书第2版对上一版内容进行了全面更新和修订,它将揭示回答这些问题的方法与技巧。你将学到如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、 GitHub、邮件、网站和博客等)的数据,以及如何通过可视化找到你一直在社交世界中寻找的内容和你闻所未闻的有用信息。
■ 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站
■ 使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识
■ 通过发现GitHub上人、编程语言和代码工程间的亲密性,构建兴趣图谱
■ 利用D3.js进行交互式可视化,充分发挥HTML5和JavaScript工具包的灵活特性
■ 以“问题-解决方案-讨论”的方式详细讲解深入挖掘Twitter数据的实用技术,并提供代码示例
《社交网站的数据挖掘与分析(原书第2版)》的配套代码在公开的GitHub代码库中进行维护,可以通过一站式虚拟机来访问,你只需要使用方便易用的IPython Notebook,即可进入愉快的交互式学习情景。
Matthew A. Russell Digital Reasoning Systems公司首席技术官(CTO)、Zaffra公司负责人。作为一名计算机科学家,他热衷于数据挖掘、开源软件开发和创造技术以扩展人类智能。
苏统华,博士,硕士生导师,CUDA研究中心以及教学中心负责人。主要研究方向包括:物联网大数据智能信息处理、大规模并行计算、模式识别、智能媒体交互与计算等。作为自然手写中文文本识别的开拓者,四年内代表工作被同行大篇幅他引约300次;他所建立的HIT-MW库为全世界100多家科研院所采用;目前负责国家自然科学基金项目2项。2013年,他领导的研究组在文档分析和识别国际会议(ICDAR’2013)上获得手写汉字识别竞赛的双料冠军;2014年,两项手写文字识别核心技术授权给某高新技术公司,正在为超过200万终端用户提供技术服务。著有英文专著《C...
Matthew A. Russell Digital Reasoning Systems公司首席技术官(CTO)、Zaffra公司负责人。作为一名计算机科学家,他热衷于数据挖掘、开源软件开发和创造技术以扩展人类智能。
苏统华,博士,硕士生导师,CUDA研究中心以及教学中心负责人。主要研究方向包括:物联网大数据智能信息处理、大规模并行计算、模式识别、智能媒体交互与计算等。作为自然手写中文文本识别的开拓者,四年内代表工作被同行大篇幅他引约300次;他所建立的HIT-MW库为全世界100多家科研院所采用;目前负责国家自然科学基金项目2项。2013年,他领导的研究组在文档分析和识别国际会议(ICDAR’2013)上获得手写汉字识别竞赛的双料冠军;2014年,两项手写文字识别核心技术授权给某高新技术公司,正在为超过200万终端用户提供技术服务。著有英文专著《Chinese Handwriting Recognition: An Algorithmic Perspective》(德国施普林格出版社),出版5本大数据分析方面的译作(机械工业出版社)。