Duncan J. Watts

Duncan Watts’ AMA Interview

18 minute read

On the other hand a single high impact paper is worth many low impact papers, so from a career perspective it’s not necessarily a waste of time to devote a y...

Common Sense and Sociological Explanations

88 minute read

Sociologists rely on common sense more than they realize. Moreover, this unacknowledged reliance causes serious problems for their explanations of social act...

Jason Brownlee

Manish Pathak

Using XGBoost in Python

15 minute read

XGBoost is one of the most popular machine learning algorithm these days. Regardless of the type of prediction task at hand; regression or classification.

Sarah Cohen

Computational Journalism

21 minute read

Journalists look for the unusual handful of individual items that might point toward a news story or an emerging narrative thread.

Turco and Zuckerman

VERSTEHEN FOR SOCIOLOGY: COMMENT ON WATTS

44 minute read

We seek only to demonstrate that his observations do not imply that the pursuit of verstehen is a diversion for the field. To the contrary, we argue that the...

Xavier Rubio-Campillo

zaytoun

使用scihub.py下载论文

5 minute read

scihub.py是一个sci-hub.cc的非官方的python接口,可以在实现从谷歌学术搜索论文并从sci-hub.cc下载论文的操作。

《中国网络传播研究》编辑部

《中国网络传播研究》计算传播专刊2019征稿通知

less than 1 minute read

‘《中国网络传播研究》计算传播专刊 的征文方向包括(但不限于):计算社会科学、计算传播学、传播网络分析、新闻文本挖掘、传播计算方法、数据新闻、计算广告、新闻推荐系统等方面。截止时间为2019年11月1日’

刘磊

新闻地图项目与gdelt数据介绍

2 minute read

中国新闻地图是一个以可视化的方式反映中国新闻在时间与空间分布的差异性的网页应用,利用gdelt已有历史数据作为数据源,通过多样化的统计图表对中国新闻进行展示。

吴令飞

使用Python来实现TrueSkill算法

4 minute read

TrueSkill算法是Elo排名方法与贝叶斯规则的结合,可用于计算竞赛选手的能力排名。Dangauthier2007提出了这个方法 ,Liu2013创造性地建议使用这方法来计算问答类社区问题的难度。

新闻在注意力场中的逃逸

less than 1 minute read

新闻的传播过程是科学界与工业界都关注的重要问题。传统研究多关注新闻在社交网络上的传递。但是以人为节点,以人们彼此间的交互为连边的社交网络,是很容易变化的。在这个不断变化的背景上研究新闻的复制和扩散,显然不是一个非常聪明的策略。

网络增长动力学:BA模型

2 minute read

在 1999的 一篇文章里, Barabasi 和 Albert 提出了网络增长的优先链接(preferential attachment)模型.他们假设新节点每次携带常数m条边,且每条边链接到老节点的概率与老节点的度成正比。为了获得度分布的解析式,他们在论文原文中用的是平均场方法(mean-field anal...

张昕之

男女选秀弥漫与娱乐机器轰鸣 ——试对《人民日报》的娱乐话语进行文本挖掘与可视化 (2005-2016)

4 minute read

本研究选取了内地媒介市场化的代表节目形态之一,选秀节目,作为分析的对象;而选秀节目如雨后春笋,秉着见微知著的精神,又选取了“音乐类选秀节目”作为分析的重点。本研究通过中文LDA主题模型的方法,分析党报《人民日报》过去12年间对音乐类选秀节目的话语主题,从而归纳其主旨,并对结果进行可视化。

张耀天

易红发

Python中的统计可视化库Seaborn

less than 1 minute read

本文主要介绍使用seaborn可视化单变量、可视化双变量、可视化多对关系、可视化线性关系、绘制函数、适应各种模型、控制图片大小和格式、分类数据画图等内容。

梁夏

注意力流网络分析的三个维度

less than 1 minute read

12月22日上午九点三十分,南京大学新闻传播学院计算传播实验中心第四次讲座如约开讲,本次应邀前来为大家做讲座的是来自亚利桑那州立大学的博士后研究者吴令飞博士。吴令飞博士毕业于香港城市大学媒体与传播学系,曾在百度做算法工程师,主要研究方向为注意力动力学。

王成军

计算传播网迁移至豆瓣小组

less than 1 minute read

为了方便维护和更新,计算传播网正式迁移至豆瓣小组。链接为:https://www.douban.com/group/webmining/

思考真实熵

3 minute read

在Limits of Predictability in Human Mobility一文(Song, 2010, Science)当中,Song等人提出人类移动行为的可预测性问题。强调了采用香农熵或随机熵不能捕捉到移动位置的时间序列特点,主张采用一种真实熵(the actual entropy)的测量方式,表示...

服务器远程使用简介

1 minute read

本文总结一些计算平台的简单管理工具,包括termius、filezilla、vncviewer, 并介绍通过建立ssh隧道的方式使用jupyter notebook的方法。

使用python可视化地理空间数据

5 minute read

本文介绍使用python可视化地理数据,使用维基解密阿富汗战争日志数据作为例子,涵盖folium,geopandas两个主要的工具。

基于泰森多边形的网络可视化

5 minute read

Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。N个在平面上有区别的点,按照最邻近原则划分平面;每个点与它的最近邻区域相关联。本文介绍Emden Gansner, Yifan Hu, Stephen Kobourov三人所发展的GMap方法,将网...

使用python进行数据清洗

20 minute read

本文介绍使用python进行数据清洗的一个案例。在数据新闻教学当中,我们通常会介绍使用open refine进行数据清洗。不过我一贯主张采用编程的思路来进行数据清洗,以保证分析的可复制性。本文介绍使用python,尤其是pandas包对university data进行数据清洗的一个例子。

ROC分析与统计检验

2 minute read

pROC是一个进行deLong显著性检验的R包。本文介绍计算AUC、绘制ROC曲线、并进行显著性检验。

真实熵与人类行为可预测性

3 minute read

在Limits of Predictability in Human Mobility一文(Song, 2010, Science)当中,Song等人提出人类移动行为的可预测性问题。强调了采用香农熵或随机熵不能捕捉到移动位置的时间序列特点,主张采用一种真实熵(the actual entropy)的测量方式,表示...

pytorch初步

2 minute read

pytorch是一种更加灵活的深度学习框架,本文介绍在anaconda环境下的安装、导入和使用。

使用powerlaw拟合重尾分布

2 minute read

幂律分布的存在非常广泛, 对于很多科学研究问题具有重要意义。但是,因为幂律分布的长尾具有很大的波动,因而确定长尾的范围尤为复杂。最小二乘方法估计幂律分布会有很大的误差,即使没有误差,也并未能确定这一分布是否幂律分布,因为没有同其他的分布的形式做比较,比如指数、对数正态、截尾的幂律。Clauset等人2009年发表...

利用python实现naive bayes算法

2 minute read

贝叶斯开创了统计学的贝叶斯学派,用先验知识和逻辑推理来处理不确定命题,与古老的频率学派分庭抗礼,频率学派只从数据中获得信息,完全不考虑先验知识,即人的经验。本文尝试利用python实现朴素贝叶斯分类。

理解HITS算法

9 minute read

Hits算法通过迭代的方法来计算权威度a和导航度h。其中: 1. 节点i的权威度$a_i$利用指向它的节点的在上一轮的导航度hlast和链接的权重来决定。 2. 节点i的导航度$h_i$利用指向它指向的节点在这一轮的权威度$a_i$和链接的权重来决定。

解决python读取文本数据中的encoding问题

1 minute read

在使用python读取一些数据的实际应用当中,我们总会遇到各各种各样的encoding的问题,一般会使用utf8,中文常用的是gb18030和gbk。有时候这种问题非常令人头痛,有没有一种终极的解决方案?采用二进制的方法就可以读取,然后需要将二进制的字符串进行相应的decode,并忽略出错的地方。

12行Python代码回复微信拜年

less than 1 minute read

今天上午在朋友圈读到了《12行Python代码,自在随心应付微信拜年群发》一文,非常简单,主要是借助于两个python的包 itchat和pillow,可以使用pip安装。

第一届计算传播学论坛

less than 1 minute read

Watts提出“如果处理得当,基于互联网传播产生的数据和互动性将会变革我们对于人类集体行为的认识”(Watts, 2007)。当人类传播行为的数据构成了计算社会科学的重要基础的时候,深入认识计算传播学的时机已经到来.

可视化的重要性

1 minute read

在我们对数据中的变量的数学分布及其相互关系进行任何分析和建立任何假设之前,为了便于理解它们的特征和找到合适的分析技术,对数据进行可视化通常是一个好主意。在本文当中,我会展现我们利用(1)简单的统计和(2)数据可视化所能得出的结论之间的巨大差异。

记忆优先随机游走模型

2 minute read

We consier a finite space of M locations, in which N individuals perfom random wolk with the probability of visiting a position proportional to its weight.

计算传播学的起源、概念和应用

2 minute read

计算传播是指数据驱动的、借助于可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学。本文首先分析了计算传播的起源、概念和应用,然后从计算社会科学的角度对计算传播学的理论脉络进行了介绍。

使用plotly-py进行数据可视化

less than 1 minute read

Plotly.js已经开源了,可以在线下生成独立的html文件,因此现在通过python使用plotly完全免费了。本文介绍基于python使用plotly的方法。

中国交通事故媒介日记

less than 1 minute read

在2000-2014年这15年间,全国各个省份在媒体报道中的交通事故数量和死亡人数随时间的变化趋势。

对《政府工作报告》进行文本挖掘

less than 1 minute read

3月5日上午,十二届全国人大四次会议开幕,国务院总理李克强作政府工作报告,系统总结了2015年政府工作,并为转型期的中国经济发展提出了新的方向。分析《政府工作报告》成为社会各界关注两会的重要视角。为了更好地理解《政府工作报告》,本文对自1954年以来的47次《政府工作报告》的文本进行自动化分析。

标度行为的几何模型

1 minute read

这个几何模型,不仅适用于物理空间,也适用于抽象空间(abstracted space)。前者包括城市、因特网的autonomous systems、大脑,后者包括相似性空间(similarity space,如引文网络、科学合作网络、在线社区)、语义空间、生态位空间(niche space)。

使用ggplot2可视化多主体建模结果

less than 1 minute read

本文将介绍如何使用R软件中的ggplot2展示不同参数条件下多主体建模的数据,主要包括数据读取、数据清洗和数据可视化三个环节。

恐怖袭击距离中国有多远?

less than 1 minute read

1970年至1990年20年间,东德的恐怖袭击事件一直保持着低水平的平稳趋势,但在1990年东西德统一后,德国的恐怖袭击事件激增。而前苏联在这20年间,国内恐怖袭击事件一直保持着递增的平稳趋势,1989年苏联解体,恐怖袭击事件在1990年突然上升,虽略有波动,但一直稳健增长。

PageRank算法浅介

1 minute read

一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。

译稿勘误:有向三元组的类型

less than 1 minute read

去年我参与翻译了《社会网络分析:方法与实践》一书,其中,我负责翻译4,5,6三章。今天收到了一封来自台湾大学的一个读者的来信,提出了书中的一个问题,如下:

社交网络演化中的局部传递性

less than 1 minute read

人类动力学(human dynamics)研究者习惯于从系统的角度来分析问题;社会科学家则强调个体作为基本研究单位的重要性。系统的特性会作用于个体,个体的行动汇总起来可以塑造系统的全局特性。

网络残缺度:共同好友间可否两步到达?

less than 1 minute read

网络是由节点和关系构成的,而对于关系的描述是社会网络的关键。我们已经知道对于节点的网络特性可以从中心度、近度、介度、特征度(eigenvalue centrality)等方式描述。那么对于关系呢?最简单的就是直接关系的强度了。

从概念到真实:SNS的形式蜕变

less than 1 minute read

本文载于《数字媒体阅读报告》。本文是作者从技术和资本角度对于SNS浪潮的反思。其中部分内容取自作者硕士毕业论文,虽然名为《正在爆发的互联网革命》一书的读书笔记,但并不限于此。

使用R模拟网络扩散

2 minute read

与普通的扩散研究不同,网络扩散开始考虑网络结构对于扩散过程的影响。

探寻社交网络中的关系: 统计网络模型初探

9 minute read

在上一章当中,我们对于网络的基本知识进行了介绍,这些知识构建起了网络科学的基础,同时也孕育着巨大的潜能。社会科学追求理论的建构,但疏于思考理论层次的丰富性。以社会学为例,一度在宏大理论和抽象实证主义之间摇摆(参见米尔斯所著《社会学的想象力》)。大数据时代的到来,再一次使得少数人开始对理论的认识产生动摇,以为只要把...

QAP检验:计算两个网络的关联

less than 1 minute read

QAP检验:两个网络之间的关联 通常一组个体具有多种类型的关系,例如友谊关系和经济往来关系。我们通常会对这两种网络关系在多大程度上相互关联感兴趣。当我们知道一组个体之间的两种关系网络,我们就可以计算这个两个关系网络之间的相关程度。在统计学当中,皮尔森相关系数是用来反映两个变量线性相关程度的统计量。与之类似,对于由...

知微

秦强

在线扩散的结构性病毒特征

1 minute read

本文以《The Structural Virality of Online Diffusion》一文为基础,介绍了The Structural Virality在当下在线信息扩散中的特点。

罗晨

利用python实现knn算法

4 minute read

NBA历史上与这些超级球星处于同一位置的球员都有谁?这些球员是否能依据某种原则进行分类?能否通过一些算法来预测他们的赛场表现? 根据NBA官网上的部分统计数据,我进行了如下实践。

胡海波

苏格拉底实验室

王成军副教授专著《跨越网络的门槛》出版

less than 1 minute read

‘信息扩散作为一种普遍存在的现象,在人类生活中扮演着重要角色。伴随着Web2.0的兴起,信息共享网站(Information Sharing Website,ISW)已经成为互联网信息扩散的新平台。信息共享网站通常以社交网络服务(Social Networking Service,SNS)、信息聚合器(infor...

计算传播学年会

使用python读取关系数据库

less than 1 minute read

我给本科生上课的时候,推荐了datacamp的cheatsheets,具体内容可以参见课程的Github页面。

中国新闻史学会计算传播学研究委员会2018年大会通知

1 minute read

中国新闻史学会计算传播学研究委员会2018年大会(简称“计算传播学年会2018”)由中国新闻史学会计算传播学研究委员会主办,北京师范大学新闻传播学院承办,南京大学新闻传播学院、香港城市大学传播研究中心/互联网挖掘实验室协办,百度赞助。会议旨在探索并推进计算传播学的发展,促进传播学与其它领域以及其他学科的对话和合作...

2017年计算传播学年会暨工作坊

1 minute read

熟悉计算社会科学研究范式并掌握基本的计算技能,是传播学者进入计算计算传播学领域的基本条件。基于此,南京大学新闻传播学院、百度、社会媒体处理专业委员会以及香港城市大学传播研究中心/互联网挖掘实验室拟共同举办2017年计算传播学年会暨工作坊(南京,9月22-9月24日),包括一天半工作坊 + 一天会议。

许小可

复杂网络零模型构造的方法及应用

6 minute read

关心真实网络和该网络随机化零模型比较后的相对值,通过相对结果的统计结果来说明实证网络的性质,此时如何构造出一个合理的复杂网络零模型作为参照物就变得非常重要。

谈和

闫小勇

阮中远

社会传染动力学:阈值模型及其扩展

less than 1 minute read

本文回顾了社会传染的经典模型之一阈值模型的相关内容。并且根据近年来在线服务产品采纳行为传播的实证研究讨论了阈值模型的局限性。在此基础上,介绍了一个新的模型。该模型在传统的阈值模型中引入两个新的机制,从而成功地解释了现实生活中社会传播的现象。

陈志聪

理解人类个体移动的模式

3 minute read

与列维飞行和随机游走模型预测相反,人类的实际移动轨迹显示出高度的时空规律性,个体特征可以用一个与时间无关的特征移动距离和一个优先返回概率来刻画。在校正行进距离的差异和每个轨迹固有的各向异性之后,个体行进模式转变成单个空间概率分布,这说明尽管他们的旅行历史具有多样性,人类的移动轨迹遵循简单的可再现模式。

Mlxtend简介

1 minute read

Mlxtend是一个基于Python的开源项目,主要为日常处理数据科学相关的任务提供了一些工具和扩展。

小世界网络的输运效率

1 minute read

Latora(2001)的主要贡献 对于小世界网络的描述,可以简化为efficiency(记作E)一个变量即可,且efficiency本身有其物理意义。efficiency衡量了网络信息交换的效率。