挖掘虚假信息和虚假新闻：概念、方法和最新进展 | 网络科学论文速递25篇

ComplexLY 集智俱乐部 2022-04-08

核心速递

挖掘虚假信息和虚假新闻：概念、方法和最新进展;
Tumblr用户的大规模性别/年龄预测;
计算阿根廷可达性指标;
检测阿根廷查加斯病的潜在高患病率区域;
建筑环境和步行：短途和长途步行旅行;
社会科学导向的特征工程：一种新的符号链接分析方法;
神经科学参考文献中性别失衡的程度及其驱动因素;
衡量Facebook对研究反应的多样性;
淬火视角的非线性Q投票模型;
x2vec是否能拯救生命？集成图形和语言嵌入实现心理健康自动分类;
边/并发顶点模型的相变;
基于铰链损失马尔可夫随机场的用户预测;
组合优化的新粒度搜索空间剪枝与启发式学习;
具有随机瓶颈容量的通勤问题发车时间选择行为研究：实验与建模;
议会存在异常减少的噪声选民模型;
投入产出网络中需求冲击的重构;
全国建筑库存自下而上能源供应优化;
四次平衡理论：具有不平衡三角形的全局最小值;
时间约束自适应函数最大化;
基于网络的北美城市公共交通系统分析;
拓扑数据分析的空间应用：城市、积雪、随机结构和在其影响下旋转的蜘蛛;
用机器学习算法理解大萧条;
量化推特上的两极分化：卡瓦诺提名;
谁在抛弃公共汽车;
用于事实检查的分布式多关系实体网络URL推荐;

挖掘虚假信息和虚假新闻：
概念、方法和最新进展

原文标题：

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

地址：

http://arxiv.org/abs/2001.00623

作者：

Kai Shu, Suhang Wang, Dongwon Lee, Huan Liu

摘要：近年来，包括假新闻在内的造谣活动因其爆炸性增长而成为一种全球性现象，尤其是在社交媒体上。造谣和假新闻的广泛传播会造成有害的社会影响。尽管虚假信息和虚假新闻的检测取得了新的进展，但由于其复杂性、多样性、多模态性和事实检验或注释的成本，它仍然是不平凡的。本章的目的是通过以下方式为理解这些挑战和进步铺平道路：（1）介绍社交媒体上的信息紊乱类型，并检查它们的差异和联系；（2）描述打击虚假信息的重要和新兴任务，以进行特征描述、检测和归因；以及（3）讨论利用有限的标记数据检测虚假信息的弱监督方法。然后，我们对本书中的章节进行概述，这些章节代表了三个相关部分的最新进展：（1）用户参与信息传播障碍；（2）检测和减少虚假信息的技术；（3）趋势问题，如道德、区块链、点击诱饵，等等。我们希望这本书能成为研究人员、实践者和学生了解问题和挑战、学习满足他们特殊需求的最新解决方案以及快速发现他们领域中的新研究问题的便捷切入点。

Tumblr用户的
大规模性别/年龄预测

原文标题：

Large-scale Gender/Age Prediction of Tumblr Users

地址：

http://arxiv.org/abs/2001.00594

作者：

Yao Zhan, Changwei Hu, Yifan Hu, Tejaswi Kasturi, Shanmugam Ramasamy, Matt Gillingham, Keith Yamamoto

摘要：Tumblr作为一家国内领先的内容提供商和社交媒体，吸引了3.71亿的月访问量、2.8亿的博客和5330万的每日帖子。Tumblr的普及为广告商提供了通过赞助帖子推广产品的巨大机会。然而，由于Tumblr在注册过程中不需要性别和年龄等用户信息，因此将特定的人口群体作为广告目标是一项具有挑战性的任务。因此，为了促进广告定位，必须使用丰富的内容，如帖子、图片和社交网络来预测用户的人口信息。在这篇文章中，我们提出了基于图表和深度学习的年龄和性别预测模型，其中考虑到用户活动和内容特征。对于基于图的模型，我们提出了网络嵌入和标签传播两种方法来生成连接特征并直接推断用户的人口信息。对于深度学习模型，我们利用卷积神经网络（CNN）和多层感知器（MLP）来预测用户的年龄和性别。在真实的Tumblr每日数据集上的实验结果表明，我们的方法显著优于基线模型，在年龄上相对提高了81%，在性别上相对提高了5%。

计算阿根廷可达性指标

原文标题：

Computing Accessibility Metrics for Argentina

地址：

http://arxiv.org/abs/2001.00596

作者：

Carolina Lang, Tobias Carreira, German Cesar Dima, Lucila Berniell, Carlos Sarraute

摘要：我们提供了一个工具来计算在阿根廷使用不同运输方式的一组出发地和一组目的地之间的距离和旅行时间。该工具的输入数据是一组目的地（城市便利设施或“机会”点的地理参考列表，如公司、学校、医院、公园、银行或零售店等）和一组以地理坐标为特征的来源地，可以解释为家庭或其他。该工具根据距离或旅行时间和交通方式（步行、骑自行车、坐汽车和乘坐公共交通）从每个起点确定最近的目的地。起点和终点的集合是大集合，最多可以包含几千个点。我们应用并开发了算法来提高程序不同部分的可伸缩性。对于公共交通网络，我们对每个点的可达线进行预处理，并使用四叉树来确定这些点与公交线路路径之间的距离。这个项目的第二个目标是只依赖开放数据，比如开放街道图（OSM）数据，同时使这个工具开源。因此，这一工具的成功开发和实施对公共部门机构以及非政府组织和其他民间社会组织都有潜在的好处，它们的工作重点是制定和实施公共政策，以改善城市的无障碍交通，从而减少空间不平等和社会排除。

检测阿根廷查加斯病
的潜在高患病率区域

原文标题：

Detecting Areas of Potential High Prevalence of Chagas in Argentina

地址：

http://arxiv.org/abs/2001.00604

作者：

Antonio Vazquez Brust, Tomas Olego, German Rosati, Carolina Lang, Guillermo Bozzoli, Diego Weinberg, Roberto Chuit, Martin A. Minnoni, Carlos Sarraute

摘要：本文提出了一个具有高度空间分解的查加斯病（ChD）潜在患病率图。它的目的是检测大查科生态区（ChD的高度流行区）以外的地区，这些地区的特点是ChD的高致病性和高健康脆弱性。为了量化潜在的患病率，我们制定了几个指标：一个量化冠心病流行区与全国其他地区的联系程度的亲和力指数。我们还研究了三瘤线虫的适宜居住条件，寻找食物、屋顶和内部天花板的主要材料有利于疾病媒介存在的区域。我们研究了可包含在健康脆弱性指数概念下的更一般性质的决定因素。这些决定因素与获得保健提供者的机会和人口不同阶层的社会经济水平有关。最后，我们构建了一个结合亲和力指数、健康脆弱性指数和人口密度的Chagas潜在患病率指数（ChPPI）。我们展示并讨论得到的地图。这些地图旨在帮助公共卫生专家、公共卫生政策决策者和公共医疗机构制定成本效益策略，以改善冠心病的诊断和治疗。

建筑环境和步行：
短途和长途步行旅行

原文标题：

Built Environment and Walking: Short vs. Long Walking Trips

地址：

http://arxiv.org/abs/2001.00640

作者：

Aryan Hosseinzadeh

摘要：近几十年来，许多研究探讨了影响步行的因素。虽然有很多关于这些因素的发现，但只有少数的研究是为了区分短距离和长距离步行旅行及其相关的影响因素。本研究旨在探讨影响短途及长途步行行程中步行行程比例的因素。为此，在第一步中，应识别出短途和长途旅行之间的主体。此外，对上述两起案件的调查是在旅行生成区进行的，涉及四个旅行目的。虽然有相当一部分的步行文献是由专注于单一出行目的的研究组成的，但本研究调查了不同出行目的下步行份额的影响因素。本研究以伊朗拉什特市112个交通分析区（TAZs）为研究对象，对个人的工作、教育、购物、返乡四种出行目的的出行信息进行了测试，以探讨短距离和长距离步行出行的影响因素。在这方面，文献综述中提到的指标来自交通网络数据库和土地利用数据。结果表明，短途旅行中，旅行生成双方的密度都是显著的。此外，与长距离步行相比，建筑环境因素更能成功地描述短距离步行。模特们能够描述在回家的短时间内最多步行0.277次，在教育步行景点的长时间旅行中最多步行0.11次的比例。

社会科学导向的特征工程：
一种新的符号链接分析方法

原文标题：

Social Science Guided Feature Engineering: A Novel Approach to Signed Link Analysis

地址：

http://arxiv.org/abs/2001.01015

作者：

Ghazaleh Beigi, Jiliang Tang, Huan Liu

摘要：许多现实世界的关系可以用带有积极联系（例如友谊和信任）和消极联系（例如敌人和不信任）的符号网络来表示。链接预测有助于推进推荐系统等社交网络分析任务。现有的关于链接分析的研究主要集中在未符号的社交网络上。负链接PIGES的存在有助于研究符号网络的性质和原理是否与无符号网络的性质相关联，并在签署的社交网络的链接分析上规定专用EFRET。最近的研究表明，有符号网络的性质与无符号网络和负链路的性质有很大的不同，这对互补的有符号链路分析有重要的帮助。在本文中，我们将讨论一个具有挑战性的问题，即符号链接分析。有符号链路分析面临着数据稀疏的问题，即只给出一小部分有符号链路。当消极的链接比积极的链接少得多时，这个问题甚至会变得更糟，因为用户倾向于积极的倾向而不是消极的。我们研究如何利用其他信息源进行符号链接分析。本研究主要以三种社会科学理论为指导，即情绪信息、创新差异和个体人格。在这些指导下，我们提取了三类相关特性，并利用它们进行符号链接分析。实验表明，从社会理论中提取的特征对于符号链预测和解决数据稀疏性问题具有重要意义。

神经科学参考文献中性别
失衡的程度及其驱动因素

原文标题：

The extent and drivers of gender imbalance in neuroscience reference lists

地址：

http://arxiv.org/abs/2001.01002

作者：

Jordan D. Dworkin, Kristin A. Linn, Erin G. Teich, Perry Zurn, Russell T. Shinohara, Danielle S. Bassett

摘要：与许多科学学科一样，神经科学越来越多地试图应对该领域内普遍存在的性别失衡问题。虽然大部分的谈话都集中在出版和会议参与上，但最近在其他领域的研究已经引起了人们对引文实践中普遍存在的性别偏见的关注。由于引文可能对知名度和职业发展产生下游影响，理解和消除引文实践中的性别偏见对于解决科学界的不平等问题至关重要。在这项研究中，我们试图确定在神经科学家的引文实践中是否存在性别偏见的证据。利用五种顶级神经科学期刊的数据，我们确实发现，如果性别不是参考的因素，那么参考列表中往往会包含更多男性作为第一和最后作者的论文。重要的是，我们表明，这种对男性的过高评价和对女性的过低评价主要是由男性的引用行为所驱动的，并且随着时间的推移而不断增加，尽管学术界存在着更大的差异。我们开发了一个共同作者网络，以确定研究者社交网络中的同性恋者在多大程度上解释了性别化的引用行为，我们发现即使他们的社交网络是该领域的代表，男性也倾向于对其他男性进行过度的访问。我们讨论可能的机制，并考虑个别研究人员如何将这些发现纳入他们自己的参考实践。

衡量Facebook对
研究反应的多样性

原文标题：

Measuring the Diversity of Facebook Reactions to Research

地址：

http://arxiv.org/abs/2001.01029

作者：

Cole Freeman, Hamed Alhoori, Murtuza Shahzad

摘要：在网上和现实世界中，社区通过围绕核心问题达成的情感共识联系在一起。在这些核心问题中，对科学知识的情感反应往往起着关键作用。当人们对科学话题的看法过于多样化时，情绪就会激荡起来，引起人们的怀疑。这一事实威胁着研究的积极成果。情感有能力塑造人们处理新信息的方式。它们可以影响公众对科学的理解，激励政策立场，甚至改变生活。然而，用定量的方法来评估公众对科学的情绪反应却鲜有研究。在这篇文章中，我们使用一组对Facebook上学术文章的回应来分析情绪的价格、强度和多样性的动态。我们提出了一种新的方法来加权基于点击的反应，增加了它们的可理解性，并使用这些加权反应来开发新的情绪反应聚合指标。我们使用我们的指标以及LDA主题模型和统计测试来调查用户的情绪反应是如何从一个科学主题转移到另一个科学主题的。我们发现，与性别、遗传学或农业/环境科学相关的研究文章比其他研究主题引起用户显著不同的情绪反应。我们还发现，对科学界在Facebook上的研究普遍有积极的反应，那些产生积极情绪反应的文章更有可能被广泛分享——这一结论与之前对其他社交媒体平台的研究相矛盾。

淬火视角的非线性Q投票模型

原文标题：

Nonlinear $q$-voter model from the quenched perspective

地址：

http://arxiv.org/abs/2001.01059

作者：

Arkadiusz Jędrzejewski, Katarzyna Sznajd-Weron

摘要：我们比较了两个版本的非线性Q投票模型：一个是退火随机的原始模型，另一个是淬火随机的修正模型。在最初的模型中，每个投票者都以一定的概率改变自己的观点——如果不一致的话。相比之下，修改后的版本引入了两种类型的投票者，它们在弱势群体出现分歧时以确定的方式行事：一部分投票者总是改变他们当前的观点，而另一部分则始终保持这种观点。虽然这两个随机性概念在微观层面上导致了系统中相同的平均意见变化次数，但在宏观层面上却导致了质的不同结果。我们关注这些模型的平均场描述。我们的方法依赖于动力系统理论中发展的线性化技术的稳定性分析。这种方法允许我们为两个模型导出完整、精确的相图。结果表明，淬火随机性在很大程度上促进了连续相变，而退火随机性则有利于不连续相变。淬火模型还创造了退火模型中未观察到的连续和不连续相变的组合，其中上下对称性可能在磁滞回线内部或外部自发地被破坏。在完整的图上进行的蒙特卡罗模拟验证了分析结果。

x2vec是否能拯救生命？集成图形
和语言嵌入实现心理健康自动分类

原文标题：

Can x2vec Save Lives? Integrating Graph and Language Embeddings for Automatic Mental Health Classification

地址：

http://arxiv.org/abs/2001.01126

作者：

Alexander Ruch

摘要：由于图和语言嵌入模型能够在低维空间中密集地表示复杂的稀疏数据，因此在大规模分析中越来越普遍。如果预测罕见事件或对隐藏群体成员进行分类，则整合这些模型的互补关系和交流数据可能会特别有帮助，因为这些任务需要大量和稀疏的数据集进行概括分析。例如，由于社会耻辱和共病，心理健康支持小组往往形成无定形的在线小组。使用标准网络分析预测这些设置中的个体之间的自杀性是由于资源限制（例如，存储器）而禁止的，并且将诸如文本之类的辅助数据添加到这些模型中会加剧复杂性和稀疏性相关的问题。在这里，我展示了合并图形和语言嵌入模型（metapath2vec和doc2vec）如何避免这些限制，并在没有领域专业知识或特征工程的情况下提取无监督的聚类数据。自杀支持组的图形距离和语言距离之间的相关性很小，说明这两个模型没有嵌入冗余信息。当单独用于预测个体之间的自杀行为时，图表和语言数据会产生相对准确的结果（分别为69%和76%）；然而，当综合使用时，两种数据都会产生高度准确的预测（90%，10%为假阳性，12%为假阴性）。以潜在自杀个体的预测为注释的可视化图形嵌入显示，即使这些个体位于远离支持组的位置，集成模型也可以对其进行分类。这些结果扩展了同时分析大规模网络中行为和语言的重要性的研究，以及在预测和分类时，特别是在涉及罕见事件时，集成不同类型数据的嵌入模型的努力。

边/并发顶点模型的相变

原文标题：

Phase Transitions in the Edge/Concurrent Vertex Model

地址：

http://arxiv.org/abs/2001.01138

作者：

Carter T. Butts

摘要：尽管众所周知，一些指数族随机图模型（ERGM）族表现出相变（其中小参数变化导致图结构的定性变化），但对其他模型的行为仍知之甚少。最近，Krivitsky和Morris报道了边缘/并发顶点族（性接触网络模型的一个简单起点）中先前未观察到的相变。在这里，我们检查这个相变，显示它是相对于与并发顶点分数相关联的序参数的一阶相变。这一转变是由于顶点招募到并发阶段时的弱协作性造成的，这在某些应用中可能不是一个理想的特性。

基于铰链损失马尔
可夫随机场的用户预测

原文标题：

User Profiling Using Hinge-loss Markov Random Fields

地址：

http://arxiv.org/abs/2001.01177

作者：

Golnoosh Farnadi, Lise Getoor, Marie-Francine Moens, Martine De Cock

摘要：人们提出了多种方法从用户在社交媒体中的数字足迹自动推断用户的偏好。大多数被提议的方法侧重于挖掘单一类型的信息，而忽略了可用的用户生成内容（UGC）的其他来源。在本文中，我们提出了一种机制来推断用户的各种特征，如年龄、性别和个性特征，然后将这些特征编译成用户资料。为此，我们通过整合和推理多个UGC来源以及社会关系，对社交媒体用户进行建模。我们的模型基于一个使用铰链损失马尔可夫随机场（HL-MRFs）的统计关系学习框架，这是一类可以使用一组一阶逻辑规则来定义的概率图形模型。我们在Facebook的数据上验证了我们的方法，拥有超过5000万用户和近725000个关系。我们展示了如何使用HL-MRFs开发一个通用的、可扩展的用户框架，通过利用文本、可视化和关系内容（状态更新、个人资料图片和Facebook页面等形式）。我们的实验结果表明，我们提出的模型成功地融合了多个信息源，并且优于仅使用一个信息源或跨不同信息源的集成方法来建模社交媒体用户的竞争方法。

组合优化的新粒度搜索
空间剪枝与启发式学习

原文标题：

Learning fine-grained search space pruning and heuristics for combinatorial optimization

地址：

http://arxiv.org/abs/2001.01230

作者：

Juho Lauri, Sourav Dutta, Marco Grassia, Deepak Ajwani

摘要：组合优化问题在不同领域有着广泛的应用。这些问题中有许多是NP困难问题，为它们设计高效启发式算法需要相当长的时间和实验。另一方面，行业内的优化问题不断增多。近年来，人们探索了机器学习技术来解决这一问题。在本文中，我们提出了一个新的框架，利用机器学习技术来扩大精确组合优化算法的规模。与现有的基于深度学习、强化学习和受限玻尔兹曼机的方法相比，试图从输入中直接学习优化问题的输出（有限的成功），我们的框架学习了相对简单的修剪元素以减少问题实例的大小的任务。此外，我们的框架仅使用基于直观局部特征的可解释学习模型，因此学习过程提供了对优化问题和实例类的更深入的见解，可用于设计更好的启发式方法。对于经典的最大团枚举问题，我们表明，我们的框架可以修剪大量的输入图（约99%的节点在稀疏图的情况下），并仍然检测几乎所有的最大集团。这使得最新算法的速度提高了几倍。此外，在我们的框架中使用的分类阳离子模型强调，邻域度的卡方值与最大团中节点的存在具有统计上的不可相关关系，特别是在密集图中，这对于现代解算器构成了一个显著的挑战。我们利用这一见解为这个问题设计了一种新的启发式方法，其性能优于最新技术。我们的启发式也是最大利益集团检测和枚举的独立利益。

具有随机瓶颈容量的通勤问题发
车时间选择行为研究：实验与建模

原文标题：

Study on departure time choice behavior in commute problem with stochastic bottleneck capacity: Experiments and modeling

地址：

http://arxiv.org/abs/2001.01381

作者：

Dongxu Lu, Rui Jiang, Ronghui Liu, Qiumin Liu, Ziyou Gao

摘要：由于需求和供给的随机变化，运输系统中的不确定性是不可避免的。它是影响旅游者选择行为的重要因素之一。基于Vickrey瓶颈模型的框架，我们设计并进行了实验室实验，研究了随机瓶颈容量对通勤出发时间选择行为的影响。研究了两种具有不同信息反馈的场景。实验结果表明，平均成本（FI）和成本标准差（FI）之间的关系都可以近似线性地与正斜率拟合。这表明在不确定的环境下，旅游者可能会最小化其旅行成本预算，表明旅游者的行为具有风险偏好。实验还发现，向通勤者提供所有出发时间的成本信息降低了通勤者的风险偏好系数。我们提出了一个强化学习模型，该模型能够很好地再现主要的实验结果。

议会存在异常减少的噪声选民模型

原文标题：

Noisy voter model for the anomalous diffusion of parliamentary presence

地址：

http://arxiv.org/abs/2001.01479

作者：

A. Kononovicius

摘要：我们审查了立陶宛议会2008年至2012年和2012年至2016年立法机构的议会出席数据。我们考虑数据集中每个代表的累积存在序列。这些系列表现出超常的行为。我们提出一个修正的噪音选民模型作为议会出席的模型。我们对个体主体轨迹的异常定义进行了详细的分析，并证明了改进后的模型能够再现经验统计特性。

投入产出网络中需求冲击的重构

原文标题：

Reconstruction of Demand Shocks in Input-Output Networks

地址：

http://arxiv.org/abs/2001.01537

作者：

Chengyuan Han, Johannes Többen, Wilhelm Kuckshinrichs, Malte Schröder, Dirk Witthaut

摘要：投入产出分析描述了各部门和地区之间的生产、需求和贸易的依赖性，并允许理解经济冲击通过经济网络的传播。实际应用中的一个中心挑战是数据的可用性。观察可能仅限于少数几个部门的冲击影响，但对其根源和影响的全面了解将非常有助于指导政治对策。在这篇文章中，我们证明，在有限的生产变化观察中，少数行业的最终需求冲击可以完全重建。我们从稀疏信号恢复中采用了三种算法，并评估了它们的性能和对观测不确定性的鲁棒性。

全国建筑库存自下
而上能源供应优化

原文标题：

Bottom-up energy supply optimization of a national building stock

地址：

http://arxiv.org/abs/2001.01554

作者：

Leander Kotzur, Peter Markewitz, Martin Robinius, Gonçalo Cardoso, Peter Stenzel, Miguel Heleno, Detlef Stolten

摘要：分布式能源的安装和运行以及供热系统的电气化，极大地改变了住宅建筑存量与电网基础设施的相互作用。评估DER在国家一级的大规模部署需要分析数以百万计的单个建筑，这将带来巨大的计算负担。为了克服这一问题，本文提出了一种新的自下而上的模型，该模型由一个聚合算法组成，用于根据人口普查数据创建一组空间分布的典型住宅建筑。然后用一个混合整数线性规划对每栋典型建筑进行优化，得出其成本最优的技术采用和运行方式，确定其未来情景下的变化电网负荷。该模型在德国得到了验证，有200座典型建筑被认为能很好地代表住宅建筑存量的多样性。预计在2050年的未来情景中，光伏和热泵将成为不同建筑类型最经济、最具生态活力的供应解决方案。尽管如此，他们的发电量和需求量在时间上并不匹配，导致冬季农村地区的电网高峰负荷翻了一番。城市地区可以用节能的热电联产机组来补偿这一点，而农村地区的热电联产机组是不节能的。

四次平衡理论：具有
不平衡三角形的全局最小值

原文标题：

Quartic Balance Theory: Global Minimum With Imbalanced Triangles

地址：

http://arxiv.org/abs/2001.01719

作者：

A. Kargaran, M. Ebrahimi, M. Riazi, A. Hosseiny, G. R. Jafari

摘要：海德提出的平衡理论首次模拟了一个有符号网络中的三重态相互作用，指出两个人之间的关系，友谊或敌意，依赖于第三者。这个模型的哈密顿量有一个隐含的假设，即所有的三元组都是独立的，这意味着每个三元组的状态，无论是平衡的还是不平衡的，对其他三元组都是客观的。这种独立性迫使网络拥有完全平衡的状态。然而，有证据表明，真实网络是部分平衡的，提出了什么是防止系统完美平衡的机制的问题。我们的建议是考虑一个四次相互作用，它溶解了三位一体的独立性。我们使用平均场方法来研究这样的系统的热行为，其中温度是一个允许主体的随机行为的参数。结果表明，在一定的温度下，平衡态和非平衡态三元体系的对称性会自发地破坏，并发生离散相变。因此，当类似的平衡或不平衡三元组占主导地位时，系统会出现稳定性，从而获得两个新的不平衡稳定状态。在该模型中，临界温度依赖于节点数的二次方，这在热平衡理论中是线性的。我们的模拟结果与平均场方法得到的结果一致。

时间约束自适应函数最大化

原文标题：

Time-constrained Adaptive Influence Maximization

地址：

http://arxiv.org/abs/2001.01742

作者：

Guangmo Tong, Ruiqi Wang, Chen Ling, Zheng Dong, Xiang Li

摘要：众所周知，最大化问题是通过在扩散过程中选择合适的种子用户来最大化一个社会网络中的一个信息级联的不确定性。在其自适应版本中，在观察到一定的扩散结果后，可以选择额外的种子用户。另一方面，社会计算任务通常是时间关键的，因此只有在早期产生的影响才是值得的，这可以通过强制时间约束来自然建模。在本文中，我们提出的时间约束自适应最大化问题的分析。我们表明，新的问题是组合不同于现有的问题，目前的技术，如子模块最大化和自适应子模块，不幸的是不适用的。在理论方面，我们给出了计算最优策略和自适应缺口下限的困难结果。对于实际的解决方案，从基本到高级，我们设计了一系列种子策略，以实现高效性和可扩展性。最后，我们通过基于真实世界数据集的大量仿真来研究所提出的解决方案。

基于网络的北美城市
公共交通系统分析

原文标题：

Network-Based Analysis of Public Transportation Systems in North American Cities

地址：

http://arxiv.org/abs/2001.01838

作者：

Abbas Masoumzadeh, Tilemachos Pechlivanoglou

摘要：为了对北美公共交通系统进行信息提取和比较，实现了一个综合数据分析系统。该系统基于传输系统的网络表示，利用了从图论中已建立的特性到复杂的领域特定度量的一系列度量和算法。由于大数据系统的性质和可扩展性的要求，在系统中考虑了许多启发式优化和近似。系统还与其他数据源集成，特别是人口密度图。在系统的子组件上进行形式化评估，以确保近似具有合理的精度。对旧金山、波士顿、多伦多和洛杉矶四个城市的比较结果表明，采用大数据方法对公共交通系统进行比较能够成功地揭示其内在的相似性和差异性。

拓扑数据分析的空间应用：
城市、积雪、随机结构
和在其影响下旋转的蜘蛛

原文标题：

Spatial Applications of Topological Data Analysis: Cities, Snowflakes, Random Structures, and Spiders Spinning Under the Influence

地址：

http://arxiv.org/abs/2001.01872

作者：

Michelle Feng, Mason A. Porter

摘要：空间网络在社会、地理、物理和生物应用中无处不在。为了了解它们的大尺度结构，重要的是开发方法，使人们能够直接探测空间在结构和动力学方面的影响。历史上，代数拓扑学为精确、定量地描述空间的整体结构提供了一个框架，而拓扑学数据分析（TDA）的最新进展为学者们提供了一个分析网络数据的新视角。在本文中，我们研究了各种各样的空间网络，包括合成的和自然的，使用我们最近专门开发的分析空间网络的新的拓扑方法。我们证明，我们的方法能够捕获空间网络中的有意义的数量，其特征依赖于上下文，从而对这些网络的结构提供有用的见解，包括基于其拓扑结构来表征它们的新方法。我们用合成网络和动力学的例子，城市中的街道网络，积雪，蜘蛛在各种精神药物的作用下编织的网来说明这些想法。

用机器学习算法理解大萧条

原文标题：

Understanding the Great Recession Using Machine Learning Algorithms

地址：

http://arxiv.org/abs/2001.02115

作者：

Rickard Nyman, Paul Ormerod

摘要：Nyman和Ormerod（2017）表明，随机森林的机器学习技术有潜力对衰退进行预警。在1990年以来的一段时间里，将这一方法应用于一小部分财务变量，并尽可能复制一个真正的事前预测情况，四步预测的准确性明显优于专业预测员实际作出的预测。在这里，我们通过考察每个解释变量对本世纪末大衰退的贡献来扩展分析。我们将私营部门债务分解为家庭和非金融企业部分。我们发现，家庭和非金融企业债务都是大衰退的关键决定因素。我们在解释模型中发现了相当程度的非线性。相比之下，公共部门债务占GDP的比例似乎贡献甚微。在大衰退期间，它确实大幅上升，但这是经济活动急剧下降的结果，而不是原因。我们在美国和英国都得到了类似的结果。

量化推特上的两极
分化：卡瓦诺提名

原文标题：

Quantifying Polarization on Twitter: the Kavanaugh Nomination

地址：

http://arxiv.org/abs/2001.02125

作者：

Kareem Darwish

摘要：本文讨论了两极分化的数量，特别是涉及到布雷特·卡瓦诺被提名为美国最高法院法官，以及他随后以1881年以来最窄的差距获得的认可。共和党（GOP）和民主党（DNC）的参议员以压倒性多数的票数通过了政党路线。在这篇文章中，我们研究了Twitter用户提名的政治两极分化。为此，我们使用半监督分类法和监督分类法，准确识别了超过12.8万Twitter用户对卡瓦诺提名的立场。接下来，我们根据转发者和使用的标签来量化不同群体之间的两极分化。对现有的极化量化措施进行修正，使其更加高效、更具针对性。我们还描述了支持和反对提名的用户之间的两极分化。

谁在抛弃公共汽车

原文标题：

Whos Ditching the Bus?

地址：

http://arxiv.org/abs/2001.02200

作者：

Simon J. Berrebi, Kari E. Watkins

摘要：本文利用四个城市的站级客运统计数据，了解2012-2018年全国公交客运量的下降情况。波特兰、迈阿密、明尼阿波利斯/圣保罗和亚特兰大对与乘客变化相关的当地特征进行了评估。泊松模型将乘客流量解释为横截面，并将其变化解释为面板。在控制频率、工作和人口变化的同时，利用美国社区调查的数据调查与当地社会人口特征的相关性。利用纵向雇主家庭动态数据，对公交乘客邻里人口结构变化进行了建模。在某个时间点上，非白人、无车和大多数重要的、受过高中教育的居民比例高的社区最有可能拥有高载客量。随着时间的推移，白人社区在所有四个城市中失去了最多的乘客。在这两个城市中，受过大学教育且没有车的居民集中的地方也以更快的速度减少了乘客。即使在控制城市内部迁移时，这些结果的符号和符号也保持一致。尽管公交乘客在各个社区的特征上都在下降，但这些结果表明，潜在的原因必须主要是观察白人公交乘客的出行行为。然而，邻里社会人口结构的变化被认为是适度的，不太可能引起全国范围的乘车危机。只有在迈阿密，巴士网络最频繁的部分附近的白人居民比例才不断上升。在那里，人口结构的变化可能是导致公共汽车客运量总体下降的原因之一。

用于事实检查的分布式
多关系实体网络URL推荐

原文标题：

Attributed Multi-Relational Attention Network for Fact-checking URL Recommendation

地址：

http://arxiv.org/abs/2001.02214

作者：

Di You, Nguyen Vo, Kyumin Lee, Qiang Liu

摘要：为了打击假新闻，研究人员主要集中在发现假新闻和记者建立和维护事实核查网站（如Snopes.com和Politifact.com）。然而，虚假新闻通过社交媒体网站得到了极大的推广，而这些事实核查网站并没有得到充分利用。为了克服这些问题和补充现有的方法打击虚假新闻，在本文中，我们提出了一个基于深度学习的事实检查URL推荐系统，以减轻虚假新闻在社交媒体网站，如Twitter和脸谱网的影响。特别是，我们提出的框架由一个多关系注意模块和一个异构图注意网络组成，用于学习用户-URL对、用户-用户对和URL-URL对之间的复杂/语义关系。在实际数据集上的大量实验表明，我们提出的框架比8个最新的推荐模型有更好的性能，至少提高了3%～5.3%。

来源：网络科学研究速递
审校：赵子鸣
编辑：张爽

声明：Arxiv文章摘要版权归论文原作者所有，由本人进行翻译整理，未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”（微信号netsci）和个人博客 https://www.complexly.me （提供RSS订阅）进行同步更新。

近期网络科学论文速递

有向网络方向性如何？| 网络科学论文速递20篇
从基于图的关系时间序列推断个体级因果模型 | 网络科学论文速递25篇
链路预测的博弈算法 | 网络科学论文速递25篇
特征注意力图卷积网络的抗噪声学习 | 网络科学论文速递25篇
网络上复发性流行病的流行传播者 | 网络科学论文速递22篇
网络拓扑结构对复杂经济系统的系统性风险和崩溃的影响 | 网络科学论文速递16篇
加入集智，一起复杂！

集智俱乐部QQ群｜877391004

商务合作及投稿转载｜swarma@swarma.org

◆ ◆ ◆

搜索公众号：集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧！

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

挖掘虚假信息和虚假新闻：概念、方法和最新进展 | 网络科学论文速递25篇