网络数据的统计分析

联合创作 · 2023-10-06 00:23

译者序

我们正身处一个网络时代。全球的生产贸易网络深刻改变了我们的物质生活,互联网的普及则让我们身处信息洪流之中。当网络成为我们生活的一部分,我们也成为了网络的一部分。面对相互关联的海量网络数据,置身其中的我们如何认识这个世界?

在这样的背景下,网络科学近年来迅速崛起,横跨数学、物理学、生物学、计算机、社会学、传播学等领域,成了定量研究中的“显学”。通过将复杂系统抽象为节点、边以及它们的属性,网络科学为解析系统特征、建立系统模型和研究系统的动态过程提供了一套简洁优美的方法。研究者掌握了网络科学的思考方式和分析工具之后,通常可以站在一个更为全局的视角审视问题,让多个交叉学科的研究进展为我所用。尽管市场上已经有不少优秀的网络科学著作,我们相信本书仍会给读者带来惊喜。由于网络科学研究者的学科背景不同,多数网络科学著作往往带有强烈的学科视角特色,例如统计物理...

译者序

我们正身处一个网络时代。全球的生产贸易网络深刻改变了我们的物质生活,互联网的普及则让我们身处信息洪流之中。当网络成为我们生活的一部分,我们也成为了网络的一部分。面对相互关联的海量网络数据,置身其中的我们如何认识这个世界?

在这样的背景下,网络科学近年来迅速崛起,横跨数学、物理学、生物学、计算机、社会学、传播学等领域,成了定量研究中的“显学”。通过将复杂系统抽象为节点、边以及它们的属性,网络科学为解析系统特征、建立系统模型和研究系统的动态过程提供了一套简洁优美的方法。研究者掌握了网络科学的思考方式和分析工具之后,通常可以站在一个更为全局的视角审视问题,让多个交叉学科的研究进展为我所用。尽管市场上已经有不少优秀的网络科学著作,我们相信本书仍会给读者带来惊喜。由于网络科学研究者的学科背景不同,多数网络科学著作往往带有强烈的学科视角特色,例如统计物理背景的著作强调网络整体性质的形成机制,社会学背景的著作强调结构指标和社会学理论框架,而计算机背景的著作则强调数据存储、算法实现等。本书及其前身Statistical Analysis of Network Data 从统计学的视角切入,归纳不同学科网络研究中的通用任务,并采用严格的统计学术语进行了表述,这在同类书籍中尚属少见。本书的6至10 章尤其精彩,其中介绍的网络统计模型很多是近五年的研究进展,对网络研究有兴趣的研究生和科研人员可以借此快速了解研究前沿。我们建议读者深入阅读书中的参考文献,以掌握使用统计工具分析网络数据的思路,并理解数据分析方法所隐含的理论假设。

另一方面,本书在讲述统计网络分析时使用了R 语言,主要以igraph和statnet 系列扩展包作为主力分析工具。原书的第二作者正是igraph 扩展包的创建者。相比其他网络分析平台,R 语言自身提供了强大的统计分析功能,所涉及的网络分析扩展包抽象程度更高、封装功能更多,有效节约了研究者构造网络数据结构和算法的时间,使得研究者可以集中精力考虑核心的研究问题。全书采用案例方式讲解统计理论,并提供了相应的分析代码,读者可以仿照书中内容快速上手开始自己的研究。考虑到原书样式和印刷过程,本书在翻译时进行了一些调整,说明如下:

• 本书翻译了整行的代码注释,未翻译代码正文中的字符串,并且保留了原书图片中的英文文字,以确保运行代码后产生相同的可视化结果。

• 书籍内文采用黑白印刷,对理解内容有影响的彩色图片在书末集中进行彩色印刷。事实上,读者可以运行书中代码自行生成多数彩色图片。

• 翻译过程使用R Markdown 写作,并采用了默认的代码格式进行输出,与原书代码格式稍有不同(没有> 和+ 等字符,输出结果使用# 标注),但保留了原书代码的行号方便读者索引查阅。

本书在翻译时力求准确、生动,但由于译者水平和经验有限,翻译不当之处在所难免。为了更好地为各位读者服务,本书在GitHub 建立了对应的翻译页面https://github.com/ complexly/ sand-translation。若您在阅读过程中发现了任何问题,欢迎在GitHub 提交issue 进行交流,或者发送邮件至book@complexly.me,我们将及时把书籍的勘误信息更新在翻译页面上。

最后,本书漫长的翻译出版过程得到了众多好友的帮助,而且绝大部分的交流协作都是在互联网上完成的,本书的诞生正是我们身处网络时代的最好见证。感谢统计之都的魏太云先生为本书介绍翻译出版的渠道,感谢华东理工大学的好友聂春笑、开智社群结识的终身学习者董昊为本书初稿提出的宝贵意见,感谢西安交通大学出版社李颖编辑辛勤细致地审阅校对,没有你们的帮助这本书很难与众位读者见面。同时,也要感谢父母亲友以及石磊老师课题组在翻译过程中的支持,你们的鼓励永远是我继续前进的动力。

李杨

2016 年5 月于清华园

前言

网络和网络分析无疑是近年来定量科学进展最大的领域之一。虽然作为领域起源的社会网络分析可以追溯至20 世纪30 年代,图论研究可以上溯几个世纪,但“网络科学”领域的迅速崛起与普及只是近10 到15 年的事情。通过我们熟悉的互联网、社交网络、病毒营销等途径,网络已经渗透到日常生活的方方面面,而不仅仅是一个研究领域或者一种研究方法了。

数据的度量与分析是网络研究的重要组成部分。因此,在实际应用、研究方法以及理论发展方面,网络分析都很需要或简或繁的各类统计方法。与其他统计学分支一样,网络分析同时包括描述性和推断性的统计方法。使用这些方法可以完成与网络有关的各种任务,包括基本的网络结构可视化与特征化,对网络拓扑的采样、建模与推断,以及对网络上的静态和动态过程进行建模和预测。

当前已经有很多可以进行网络分析的软件,横跨各种平台、编程语言和使用环境。毫无疑问,R 语言社区在网络数据统计分析软件的开发上尤其活跃。写作本书时,已经有几十个具有某些网络分析功能的R 扩展包了。它们可以共同完成网络分析的各类任务:从标准的网络数据操作、可视化与特征化(如igraph、network 和sna 扩展包),到网络建模(如igraph、eigenmodel、ergm 和mixer 扩展包),再到对网络拓扑的推断(如glasso和huge 扩展包)。除此之外,R 的基本扩展包还提供了大量其他的分析工具和函数。

本书的写作目的是为网络数据的统计分析提供一种使用R 语言的、简单易得的入门课程。因此,本书既不是涉及的各种R 扩展包的使用手册,也不打算介绍所涉及主题的详尽概念和技术基础。相反,我们希望在这两者之间寻找一个平衡,并且在最佳阅读体验的基础上,采用(希望是!)最简洁的程度来组织文字。相应地,我们预计本书会被以下人群使用:(1)希望开展网络数据统计分析的统计学者,无论是作为研究方向还是与他人合作,且希望继续使用R 作为分析工具;(2)来自类似定量领域(如计算机科学、统计物理、经济学等)的复杂网络研究者,无论对统计是否熟悉,希望较快掌握R语言中的网络数据统计分析方法;(3)应用领域的实践者,希望涉足与某些特定应用相关的网络分析方法。

总的来说,本书是为定量领域、有网络数据统计分析需求的研究生和科研人员撰写的,但熟悉R 语言的高年级本科生也可以轻松地学习本书的大部分内容。我们预计当前对本书感兴趣的人群不仅包括统计学的读者,还有来自计算生物学、计算机科学与机器学习、经济学、神经科学、计量金融学、信号处理、统计物理以及定量社会科学的研究人员。

很多人在本书写作的各个阶段为我们提供了帮助,在此我们表示衷心的感谢。感谢Springer 编辑团队的热情,他们鼓励我们开始了这个项目,并全程提供了很多反馈意见;感谢波士顿大学2013 年秋季课程Statistical Analysis of Network Data(MA703)的同学们对早期几个章节做出的评价。特别感谢Xinyu Kang、Heather Shappell 和YaonanZhang,他们全程参与了本书第一稿的撰写,仔细阅读每个章节并测试了书中的代码。我们也感谢Christophe Ambroise、Alain Barrat、Mark Coates、Suchi Gopal、Emmanuel Lazega 和Petra Staufer 提供了数据。更广泛地,我们对书中使用的许多R 扩展包的作者一并表示感谢,他们为开发付出了大量的时间和精力。没有他们的工作,本书的广度和范围都会大打折扣。最后,我们向我们的家人表示最深的感谢,感谢他们在写作本书时所给予的爱、耐心与支持。

本书使用的所有代码和数据都包括在R 扩展包sand 之中,可以通过CRAN 进行下载。

美国,马萨诸塞州,波士顿Eric D. Kolaczyk

美国,马萨诸塞州,剑桥Gábor Csárdi

2014 年3 月

Eric D. Kolaczyk 是波士顿大学数学与统计系的统计学教授与统计学项目负责人,同时是生物信息学项目、系统工程方向以及计算神经科学项目的教职人员。他撰写的以网络为主题的著作不仅发展了统计学的方法与理论,还涵盖了探测计算机网络上的匿名流量模式,预测蛋白质相互作用网络中的生物功能,以及刻画社会网络中行动者群体影响等应用性的工作。他是美国统计协会(American Statistical Association,简称ASA)会士,也是电气和电子工程师协会(Institute of Electrical and Electronics Engineers,简称

IEEE)高级会员。

Gábor Csárdi 是美国哈佛大学统计系的研究助理,获匈牙利罗兰大学计算机科学博士学位。他的研究包括网络分析在生物学与社会科学中的应用,生物信息学与计算生物学,以...

Eric D. Kolaczyk 是波士顿大学数学与统计系的统计学教授与统计学项目负责人,同时是生物信息学项目、系统工程方向以及计算神经科学项目的教职人员。他撰写的以网络为主题的著作不仅发展了统计学的方法与理论,还涵盖了探测计算机网络上的匿名流量模式,预测蛋白质相互作用网络中的生物功能,以及刻画社会网络中行动者群体影响等应用性的工作。他是美国统计协会(American Statistical Association,简称ASA)会士,也是电气和电子工程师协会(Institute of Electrical and Electronics Engineers,简称

IEEE)高级会员。

Gábor Csárdi 是美国哈佛大学统计系的研究助理,获匈牙利罗兰大学计算机科学博士学位。他的研究包括网络分析在生物学与社会科学中的应用,生物信息学与计算生物学,以及图论算法等。他于2005 年创建了igraph 扩展包,此后一直是主要的开发者之一。

浏览 2
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报