Fork me on GitHub

衡量Facebook对研究反应的多样性

论文基本信息

论文标题:Measuring the Diversity of Facebook Reactions to Research
论文作者:C. Freeman and H. Alhoori and M. Shahzad
论文出处:Proceedings of the ACM on Human-Computer Interaction (2020)
论文原文地址:https://arxiv.org/abs/2001.01029

论文正文

摘要:在网上和现实世界中,社区通过围绕核心问题达成的情感共识联系在一起。对科学发现的情感反应往往在这些核心问题中起着关键作用。当人们对科学话题的看法过于多样化时,情绪就会爆发并引发冲突。这场冲突威胁着研究的积极成果。情感有能力塑造人们处理新信息的方式。它们可以影响公众对科学的理解,激励政策立场,甚至改变生活。然而,很少有人用定量的方法来评估公众对科学的情绪反应。在这篇文章中,我们使用一组对Facebook上学术文章的回应数据集来分析情绪的效价、强度和多样性的动态。我们提出了一种新的方法来加权基于点击的反应,增加了它们的可理解性,并使用这些加权反应来开发新的情绪反应聚合指标。我们使用我们的指标以及LDA主题模型和统计测试来调查用户的情绪反应在不同科学主题之间的差异。我们发现,与性别、遗传学或农业/环境科学相关的研究文章引起的用户情绪反应与其他研究主题明显不同。我们还发现,人们对Facebook上的科学研究普遍有积极的反应,而产生积极情绪反应的文章更有可能被广泛分享——这一结论与之前对其他社交媒体平台的研究相矛盾。
附加关键词和短语:社交计算,Facebook反应,社交媒体,网络挖掘,文本分析,情绪,情绪检测,基于点击的反应,高度度量

Introduction

  社交媒体平台上的信息共享和反应速度正逐年提高。2019年6月,Facebook每分钟新增29.3万条帖子和51万条评论[1]。这些平台通过基于点击的反应等功能进一步加快了内容评估和反馈的速度。这些相对较新的功能为用户提供了一种快速简便的方式,以一种仍然是个人和表达的方式对内容做出反应。它们已经在Facebook和LinkedIn等平台上推出,Facebook在2016年扩大了反应范围,LinkedIn在2019年增加了用户可点击的反应数量。然而,到目前为止,很少有研究来增进我们对这些新颖特征的理解。
  基于点击的反应为文献计量学和替代计量学(或替代度量)领域的研究人员提供了明显的好处,这样的领域是一个考虑到通过多个社交媒体平台传播研究结果的日益增长的兴趣领域[2–5]。以前的研究把引文作为理解和预测学术研究对科学界本身的影响的金标准[6],但是评估工作可能对社会产生的情感影响在很大程度上没有受到影响。基于点击的反应可以提供一种方法来解决研究如何影响社会的问题。
  通常情况下,科学认识的进步之前是测量的进步。虽然已有成熟的方法和工具来分析文本的情感,但基于点击的反应的新颖性意味着,没有相同的资源来分析通过点击表达的情感。在本文中,我们提出了一个启发式的方法来分析基于点击的对社交媒体内容的响应。我们从心理学研究中借用了情绪效价、强度和多样性的概念,利用它们来更好地了解Facebook用户是如何通过他们的反应对科学研究做出回应的。在仔细分析了我们为这项研究收集的Facebook反应数据之后,我们为这些情感概念制定了衡量标准。最后,我们将新开发的方法和度量标准应用于我们的数据。我们最感兴趣的是学习关于科学主题的聚合行为和情感,而不是单个文章,因此,我们使用LDA主题模型在数据集中对文章进行聚类,并进行统计测试以了解用户如何基于共享内容表达情感变化。

Background

我们首先定义几个重要术语:

  • Click-based reactions:社交媒体平台上的功能,允许用户对内容做出快速、轻松的响应;基于点击的反应是非文本的,与文本表情符号相关,表情符号通过象形图传达情感反应;在Facebook上,基于点击的反应包括六个按钮“Like”,“Love”、“Wow”、“laughter”、“Sad”和“Anger”;图1显示了Facebook的六个基于点击的反应。
  • Five special reactions:基于五个点击的反应:“Love”、“Wow”、“laugh”、“Sad”和“Anger”。
  • Page visibility:Facebook页面拥有的关注者数量;Facebook允许用户喜欢或关注页面;在跟踪一个页面之后,用户将开始在自己的时间轴上看到由这些页面共享的内容。
  • Shares:一篇文章发布到Facebook上的公共页面的数量。
  • Reshares:用户在另一个私人或公共页面上重新共享文章的公共帖子的次数。我们的数据集包含对初始共享的反应和“重新共享”的数量,但是我们没有来自文章“重新共享”的反应数据。
  • Article:我们的数据集包含了Facebook对研究相关文章的反应;为了方便起见,这些文档有时被称为“documents”,特别是在特征转换的描述中。

1

Measuring emotion

  在评估一组用户对社交媒体内容的情绪反应时,有三个因素特别相关:反应的效价、强度和多样性。在心理学文献中,这些因素通常指个体的情绪反应[7-11]。由于我们有兴趣在这里测量聚合响应,因此我们将这三个变量视为对内容的聚合响应的指示。由于许多原因,我们收集的数据不可能对单个用户进行测量。首先,我们采取了预防措施,避免收集可用于识别特定用户的信息;测量更细致的情绪反应必然需要更多关于个体的信息。其次,每个用户只能在一篇文章上点击一个反应(但是,他们可以分享和提供对一篇文章的反应)。尽管这一信息有助于发现群体反应,但对于确定一个人对某篇论文的反应是多样的或者是有冲突的,一点帮助也没有。
  反应效价表示情绪的“方向”(即积极或消极)。积极的情绪会促进社交联系和娱乐性[8],而消极的情绪会促进警惕和回避,尽管它们有时比积极的情绪更能吸引注意力[7,12]。效价是一种二元测量方法,重要的是要注意到消极反应对个人和社区都有有益的影响[12]。情绪反应的强度反映了信息对被调查者的重要性[9,13,14]。随着情绪强度的增加,情绪对象吸引了更多的个体注意力[7,10,15,16]。强度也可以用作信息在人的记忆中保留多长时间的指标[12]。更强烈的情绪也更有可能影响决策[17]。
  我们在这里使用的最后一个因素是反应的多样性。它表示用户对帖子的反应同时指向不同情感方向的程度。它可能表明内容有争议,或者对于一组应答者应该如何接收或解释一个主题没有共识。对一篇文章或文章的情绪反应的多样性表明,个体的反应有很大的差异,而且对某个特定的主题或问题没有达成共识[11]。

Topic models

  主题模型是自然语言处理(NLP)中用来发现文本中潜在语义结构或重要词组的一类统计模型。它们通常以大量文档构建,以保留每个文档的不同属性,同时也将每个文档的简短描述作为主题的独特组合。主题模型有助于机器学习中有用的基本任务,如文本摘要、文档相关性的确定、新颖性的检测以及分类。
  潜在狄利克雷分配(LDA)主题模型是由Blei等人首先在机器学习环境中应用的[18]。LDA的基本思想是文档可以表示为“潜在主题上的随机混合”,每个主题可以表示为单词上的概率分布。正是这种类型的主题模型在文本挖掘文献中得到了最广泛的应用。LDA模型以用户希望发现的文档和给定数量的主题t作为输入,并定义经常出现的t组词或n个语法。然后,每个文档都可以表示为t主题上的一个分布。

Literature Review

  社交媒体分析的研究倾向于关注文本,使用NLP、情感分析或意见挖掘等方法得出并支持研究结论,或者关注通过在线社区传播的内容[19–22]。这些方法已被证明对于理解或预测人类行为的许多方面都是有效的,但是它们却忽略了许多其他表达信号。另一方面,基于点击的反应在社交媒体研究中是一个相对未被充分利用的资源。快速绘制,现成的表达功能的示例在许多平台上变得越来越普遍,因此在过去几年中吸引了研究人员的大量关注。
  已经进行了一些研究,使用社交媒体数据来测量和理解情绪[23-27]。Tian等人[28]研究了Facebook用户用表情符号修改评论情绪的方式。他们瞄准了公共新闻页面上的帖子,比较了三种表达方式:自然语言、表情符号和反应。他们发现,通常表情符号的情感内容和反应是一致的,但在讽刺或礼貌的情况下,这两个渠道可以表达不同的含义。Krebs等人[29]使用从Facebook收集的客户满意度数据,使用卷积和递归神经网络(CNN和RNN)训练模型,并预测给定职位的反应分布。Basile等人[30]结合NLP和Facebook反应的情绪分析,建立一个回归模型,用来预测意大利媒体的新闻争议。
  在Facebook和其他社交媒体平台上,有几项关于社区建设、社交互动和身份确认的研究。Rohde等人[31]和Hewitt等人[32]是社会媒体数据如何用于在线研究社区间互动和身份形成的早期例子。Burke等人[33]研究发现,如果Facebook用户的朋友网络规模较小,联系更紧密,那么他们对社区成员的帖子的正面和负面反应都会更强烈。Thagard和Kroon[34]强调了情感共识在群体决策、社区凝聚力中的作用。他们的情感共识观念是建立在这样一种观念之上的:当所有党派成员都交流他们与每一种可能性相关联的效价时,群体就达成一致。作者认为,共识部分是通过理性的讨论和论证达成的,但我们过分强调了这一点的重要性,因为我们倾向于相信人类是理性的行动者。他们调查了心理学研究,发现群体行为更多地受到非语言交流的驱动,例如“面部表情,声音,姿势,和动作”。在努力达成共识的过程中,情绪上更强势的立场是“具有传染性的”,会在群体中传播,最终对结果产生最大的影响。
  Kumar等人[35]看到了Reddit上社区之间的冲突和对抗。它们由参与站点上不同论坛(即“subreddits”)的用户定义社区,每个社区都满足用户的特定兴趣,并由页面版主策划。这个社区定义是一个明确的空间,在这个空间里,成员经常访问并与其他成员互动,这个社区可以在Reddit的结构中很好的运行。Reza等人[36] 将这种类型的社区标记为显式的,在这个社区中,用户了解到他们是社区的成员,并且与社区中的其他成员进行交互的机会超过非成员。
  一些研究表明,一个人的情绪,如愤怒、悲伤、快乐和沮丧,在对他人的影响程度上是不同的。Rosenquist等人[37]使用纵向统计模型分析了弗雷明翰心脏研究[38]中12067人的社会网络,这是一项长期、持续的心血管队列研究,研究对象是马萨诸塞州弗雷明翰市的居民,目的是确定一个人的抑郁症状是否与其朋友、同事、兄弟姐妹、配偶和邻居有关。为了评估抑郁症状,研究人员使用了中心的流行病学量表。研究结果表明,在三个分离度的人群中可以发现一种关联,即从抑郁者的朋友到他们的朋友,再到他们的朋友。研究人员还研究了网络用户表现出的这些情绪的变化。Fan等人[39]在中国的微博网站Weibo上,使用了一个关于愤怒、快乐、厌恶和悲伤的多情感分类模型来确定这些情感之间的关系。利用皮尔逊相关和斯皮尔曼相关,他们发现不同的情绪有不同的相关性。他们的研究表明,用户之间的相关性是高愤怒和低悲伤情绪。
  Burnap等人的研究[40]不仅包括情绪分析,还包括用户先前党派支持预测2015年英国大选结果的细节。研究人员利用近1400万条推文训练了一个模型,并依靠从极端负面到极端正面的一系列信息来描述用户的情绪,他们预测工党将赢得大选。在类似的研究中,Vepsalainen等人。[41]研究了Facebook上的“Likes”如何被用来预测选举结果。他们使用Facebook的Graph API收集了270万个数据点,并使用绝对误差来衡量他们预测的准确性。在这项研究中,作者惊讶地发现“Likes”并不是选举结果的有力指标。在这项研究中,作者惊讶地发现“喜欢”并不是选举结果的有力指标。

Methods

The dataset

  我们的数据集由通过Altmetric的在线数据库发现的文章组成。他们的数据库包含有关以各种语言和学科出版的数百万篇学术文章,研究报告和有关科学发现的新闻的信息。我们过滤了我们的目标文章,只针对那些已经在公共Facebook页面上分享了一次或多次的文章。我们进一步筛选了2017年发表的文章。选择今年完成了三个目标:(1) Facebook在2016年2月发布了反应[42],因此我们看到的任何文章都必须在这段时间之后发布,才能获得关于这一功能的有意义的数据。(2)每当推出新功能时,用户都需要时间来学习如何使用它;Shah [43]发现,反应的使用率从2016年4月的所有互动的2.4%增加到2016年6月的5.8%,到2018年6月增加到所有互动的12.8%;到2019年初我们收集数据时,有足够大的用户群对该功能表示满意,以获得更多学术关注。(3)在我们开始收集数据时,已经过了足够的时间间隔,可以广泛分享文章并做出反应(15至30个月)。
  Altmetric的数据库提供了在公共Facebook页面上共享文章的URL。我们使用这些链接来查询Facebook的Graph API,以获取有关用户对帖子的反应的信息。此过程限制为每小时200个查询,每个单独的查询都会检索(1)基于点击的反应,(2)文章接收到的“重新共享”数量,以及(3)在公共页面上共享一份文章时包含的任何文本。有些文章被多次分享到许多不同的页面;对于这些,我们收集了每个帖子的信息,并将所有的反应汇总为总反应分数。我们没有收集用户在帖子中添加评论的信息,也没有收集“重新分享”一文的信息。我们的数据集中的文章共享范围在1到362之间。我们的数据集中文章获得的分享数的中位数是1。平均分享数为2.30,标准差为4.57。显然,文章的分享数的分配是偏右的——少数文章收到的分享数是平均分享数的很多倍。
  我们收集了149747篇科学文章的356664分享数的数据。大部分收集工作是在2019年3月至7月之间进行的。但是,对于本研究,我们感兴趣的是探索Facebook用户如何采用基于点击的反应。因此,我们将所看的文章仅限于那些收到五种特殊反应中一种或多种反应的文章。我们最终筛选的数据集包括33662篇文章,分享到178403个公共Facebook页面上,所有这些文章共收到6418053个基于点击的反应和2051299个“重新分享”。
  对于每一篇文章,我们的数据集包括:文章标题、文章摘要、文章发表日期、文章共享到的公共Facebook页面数以及每一类别的基于点击的反应数。它还记录了文章中的文字(如果有的话)。这里还有一些记录文章主题的功能:“主题”, 其中包括作者选择的与每篇文章相关的主题领域;“Scopus主题”,这是记录在Scopus数据库中每个文章条目中的主题领域;以及“出版商主题”,记录发表文章的期刊的主题领域。每篇文章的每个功能都可以包含一个,多个或不包含任何主题。
  在我们的数据收集过程中,我们非常小心地遵守Altmetric和Facebook关于如何以及为什么可以访问和使用他们的数据的规范。我们优先避免收集有关特定社交媒体用户的个人身份信息。我们的兴趣只是人们在社交媒体平台上与学术内容进行整体互动的方式,而不是特定用户的信仰或意见如何影响他们的行为。我们认识到,在某些情况下,识别信息可以从我们收集的一些数据中推断出来;但是,我们的数据收集方法并未针对任何可用于一致地识别个人用户的内容。

Feature analysis and transformation

  在概述我们如何转换和使用数据集中的特征来测量情绪的效价、多样性和强度之前,我们将首先描述我们在数据中发现的一些基本模式和关系,这些模式和关系为我们的决策提供了信息。找到适当的方式来赋予这个特征重要性,或者需要了解每个特征的含义以及特征之间的交互方式。对特征的更改必须谨慎而慎重,因为重要信息可能在转换过程中丢失或损坏。
Feature analysis
  基于点击的反应在整个数据集中分布不均匀。图2a显示了数据集中每个反应类型的总数。我们看到“Likes”比其他任何反应都高出一个数量级。在这五种特殊反应中,“Love”和“Wow”是普遍存在的,而“Sad”和“Anger”等消极反应则不太常见。同样,表1显示了六个基于点击的反应和“重新共享”的描述性统计数据。我们可能假设Facebook用户更有可能对科学内容(或一般而言,对平台上的内容)做出积极反应,或者通过平台传播具有正价的科学内容。我们可能还认为,这些积极的反应更为常见,因为它们比消极的效价反应更容易被用户接触到。尽管这些假设可能具有一定的分量,但我们可以通过仔细检查反应的使用情况来了解更多信息。在查看图2a时,我们将考虑三个主要因素:(1)Facebook发布反应的历史时间线,(2)Facebook用户界面的布局,以及(3)术语“Like”、“Love”和“Wow”在语义上的接近性。
2
3

  首先,“Like”是Facebook最初的反应。在2004年到2016年间,“Like”和“Reshare”是平台上唯一可用的基于点击的反应。到2016年发布这五个特别的反应时,用户已经习惯了使用“Likes”来回应各种内容(例如,正价和负价的帖子)。因此,即使有了更广泛的反应选项,用户仍然更有可能采用“Likes”的方式。其次,通过将鼠标悬停在“Likes”按钮上以打开特殊反应选项板,可以在用户界面中找到五个特殊反应。“Sad”和“Anger”位于反应选项的最右侧,因此用户需要尽最大的努力和意愿进行选择,而“Likes”,“Love”,“Laughter”和“Wow”的反应则归类于反应选项的左侧。用户点击“Like”的容易程度,以及这种反应与“Love”和“Wow”的空间关联,可能解释了这些反应在我们的数据集中普遍性。这个论点是有说服力的,但只能扩展到目前为止。
  最后,比起其他任何反应,“Like”一词在语义上与“Love”和“Wow”更相关(如惊奇或敬畏)。此外,代表“Like”的图标是竖起大拇指,表示支持和同意,通常表示积极的情绪;它的积极性可以与“Love”(由一刻心代表)和“Wow”(由一张惊讶的脸代表)联系更紧密。这些关联至少在某种程度上解释了该特性的使用。
  但是,我们应该注意不要将语义相关性扩展得太远。例如,我们可能会惊讶地发现朋友关于亲戚或个人过世之事的帖子收到了“Likes”; 显然,这些回答并不是要表明他或她的朋友们对目前的情况感到高兴,而是他们表达了更类似于团结或同情的东西。这个例子表明“Like”反应的使用并不一定与它的语义有关。表2显示了我们的数据集中包含每个反应类型的文章的比例。表3显示了在我们的数据集中,每个配对中至少收到两个反应之一的文章的比例,为这种效果提供了证据。我们可以通过比较带有“Likes”和其他反应(表3第一行)的文章与表2中值的比例来判断,“Likes”几乎在任何时候都与所有其他反应配对,这五个特殊的反应都是如此。图2b中的相关性表明“Likes”与“Love”和“Wow”反应共同变化,但这并不意味着它们也不与其他反应类型配对。
  由于“Love”和“Wow”与“Like”反应有着语义和物理上的相似性,我们不仅希望看到它们也被更频繁地使用,而且希望这些特征的使用能够显示出正相关。图2b显示了特征之间的Spearman(斯皮尔曼)相关系数。“Like”、“Love”和“Wow”之间有很高的正相关。我们的直觉是,在我们看到“Likes”程度增加的同时,我们也期望“Love”或“Wow”反应增加,这也得到了我们数据的支持。消极的反应“Sad”和“Anger”也是高度相关的。“Reshares”和“Like”、“Love”和“Wow”反应之间的高度正相关使我们相信积极的内容在Facebook上被更广泛的分享和反应,这一发现与论文[39]等研究的结论(负面情绪会在社交网络中产生更大的互动和分散)相悖。
  正是由于这些原因,我们不应低估“Anger”或“Sad”等不太常见反应的出现。它们在文章上的出现代表用户有更多的意图和努力以提供特定的响应。因为积极的反应是预期的反应模式,并且由于消极的反应需要用户更多的努力才能应用,所以我们决定用我们对看到该类型反应的期望的反比来衡量不同类型的反应。
4

Feature transformation
  我们数据集中的文章的反应并不相同。在一个页面上分享一篇文章可能会导致数千条回复,而在另一个页面上分享同一篇文章可能根本没有任何回复。反应的数量可能是一个帖子或文章引起了用户强烈反响的信号,但是很难解释上下文,例如看到该帖子的人数。有多少用户关注公共页面因页面而异,因此每页上文章的可见性也会有所不同。也很难解释Facebook将帖子传播到用户新闻提要中的算法。
  我们对基于点击的反应进行加权的方法是基于我们期望在任何给定文章中找到它们的概率。权重是通过一种与词频-逆文本频率指数(TF-IDF)相关的方法确定的,这是一种在当前许多信息检索和推荐系统中使用的一系列文档中设置术语相对重要性的方法。我们将加权程序称为“反应频率-逆文本频率(RF-IDF)。
  我们将每篇文章的原始反应计数更改为文章收到的所有基于点击的反应的比例。例如,如果一篇文章收到了6个“Likes”、1个“Love”和2个“Wow”的反应,我们会将这些值转换为6/(6+1+2)“Likes”、1/9“Love”和2/9“Wow”的反应。然后我们对数缩放这些值。这个转换的结果给出了反应频率(RF_(ⅆ_r ))(方程式1),其中ⅆ_r是给定文档d接收到的特定反应r的计数,R是所有六个基于点击的反应的列表。
5
  接下来,我们需要奖励罕见的反应,惩罚常见的反应,并为每种反应类型确定适当的权重。为此,我们发现了一种给定的反应将被应用于一个随机文章的概率,这是通过将数据集中具有该反应类型的文章数除以数据集中的文章数而得出的。逆文本频率(IDF)是该概率的自然对数。这个值给出了每种反应类型的IDF(方程式2),其中|D|是数据集中的文章数,|D_r |是数据集中接收到特定反应r的文章数。
6
  最后,我们通过将每种反应类型的对数比例乘以该种反应的IDF来计算RF-IDF,如等式3所示。
7

Metrics of emotional diversity and intensity

  通过我们转换的基于点击的反应,我们开发了指标来衡量用户对数据集中文章的反应的效价,强度和多样性。效价是这三个指标中最简单的。因为它代表了一个反应趋向的积极或消极的方向,所以我们必须确定反应中编码的积极和消极情绪的信号。“Love”和“Anger”是相对直截了当的,分别具有正价和负价。这种“Sad”的反应可以用来表达对一个经历了一些困难的人的同情或声援,但在我们正在研究的一组帖子中,用户不太可能一直在自己的帖子或研究中分享个人经验,从而激发这种同情的反应。图2显示了“Anger”和“Sad”之间非常高的相关系数。事实上,这对特征在所有特征对中具有最高的相关性。这为这两种反应具有同一个效价的观点提供了证据。
  为了确定每篇文章的效价,我们检查了其“ Love”反应的值是否大于其“ Sad”和“ Anger”反应的值,如等式4所示。
8
接下来,我们计算数据集中每一篇文章的反应强度。在构思我们的指标时,我们首先观察到,当对Facebook上的任何帖子提供基于点击的反应时,每个用户都会得到他们提供的一个准确的反应,其中不包括已经“Liked”或提供五个特殊反应之一的用户选择了的“Reshares”。用户通过选择一个特殊的反应而不是默认的“Like”,展示了对更具体反应的渴望。我们把这种意图和努力理解为一种强烈的情绪反应的标志。考虑到这一点,我们认为强度是五种特殊反应与六种点击反应之和的比率。我们首先对给定文档d的所有反应进行求和,如等式5所示。
9
然后我们总结了五种特殊的反应,并将它们除以总的点击反应,如方程式6所示。这将我们的强度指标限制在[0,1]之间,其中0表示收到“Like”反应但没有其他反应的文章,而1表示仅收到特殊反应的文章的分数;以这种方式限定我们的指标有助于文章之间的比较。我们设计的强度指标,对获得低反应数量的帖子敏感。对我们而言,重要的是,无需依靠纯粹的反应量,就能够确定收到强烈的情绪信号的帖子。
10
最后,我们开发了一个指标来衡量用户对每一篇文章的反应的多样性。多样性衡量给定文章中有多少不同的特殊反应类型,以及这些反应的平均分布情况。我们忽略了对我们多样性衡量的“Like”反应。如上所述,这种反应在使用上是相当灵活的,并且依赖于上下文的意义。我们使用JS散度距离(JSD)作为度量的基础,JSD使用熵和Kullback-Leibler散度来度量两个概率分布之间的差异。JSD是通过对JS散度得分的平方根求出的。我们首选JS距离而不是JS散度,因为前者是真实的距离度量标准,并且已证明可以满足三角形不等式。后一个属性提高了我们比较多篇文章的结果的能力。我们更喜欢JSD而不是Kullback-Leibler散度,因为后者没有上界,使得比较不同的观测值变得困难。
  我们假定所能观察到的反应类型的最高多样性是类型的均匀分布,其中每个反应的比例相等,并记录了这种均匀分布与我们所观察到的分布之间的JSD。JSD是一个(0,1)有界值,其中(在我们的例子中)0表示观察到的分布是均匀的,1表示观察到的分布与均匀分布相差很大(即只有一种特殊反应)。
11
其中P和Q是两个分布,M=(P+Q)/2,KLD(P||Q)是Kullback-Leibler散度。由于代表一篇文章所能收到的最大多样性的均匀分布将产生0,因此我们采用补足值:
12
其中θ_d是给定文章d的五个特殊反应的分布,而U {0,1}是[0,1]的离散均匀分布。
  我们的度量标准被设计为组合,以便在文章之间进行进一步的比较。例如,多样性评估一篇文章中出现了多少不同的反应,但不评估出现了多少反应,也不评估五个特殊反应占所有基于点击的反应的比例。正如方程式9所示,将多样性指标与强度指标相乘,我们能够识别收到强烈反应以及存在许多不同情绪的反应的文章。
13
  我们还可以将效价和强度得分相结合以产生极性得分,该极性得分报告了响应的强度和方向(方程式10)
14

Training a topic model

  我们的兴趣不仅仅在于个人对特定科学文章的反应:我们希望利用我们的数据更好地理解对科学领域的总体情感反应。为此,我们希望以尽可能合乎逻辑的方式对论文进行分组。我们最初考虑使用与Altmetric数据集中的每一篇文章相关联的“Scopus subject”标记,但是很多文章都缺少这个特性。此外,回复帖子的用户不一定要点击链接打开文章并在回复之前阅读内容,如[21]所示。接下来,用户会对他们直接遇到的内容做出反应:Facebook的帖子。因此,我们希望找到方法来尽可能多地保留帖子文本的详细信息。按照这种推理,我们在每篇文章的文章共享所包含的文本上训练了主题模型。
  我们在构建LDA主题模型时采取了以下步骤。我们首先将与某篇文章分享的每个文本合并在一起。每一篇文章都可以分享很多次,因此我们的“文本”的长度变化很大。LDA主题模型是处理此类数据的特别强大的工具[18]。这些帖子也可以使用多种语言,所以我们只保留了英文文本。我们清理了文本,删除了超链接、标点符号、电子邮件地址和标签。然后,我们从标记的文本中创建了二元和三元(分别是两个单词和三个单词的常见分组)。我们删除了“ the”和“ and”之类的停用词,并对每个词进行了词形去除,这涉及到删除词尾变化以将每个词转换为字典形式(例如,使复数名词成为单数,将动词更改为不定式)。最后,我们删除了少于15个文档中出现的单词和超过一半文档中出现的单词。结果就是我们用来训练模型的语料库。
  我们使用了Python的Gensim库中的LDA模型[44]。选择一个模型识别的主题数t可能会很耗时。这个数字可能会根据研究者对模型的目标或数据的形式而改变。我们的目标是可解释性:我们希望能够很容易地理解给定的主题是关于什么的,并且能够相对容易地区分一个主题和另一个主题。我们还希望主题的数量反映出我们希望在数据集中看到的字段的数量。在我们的数据集中,大约有30种不同的Scopus主题标签(例如,物理,生物化学,计算机科学)被应用于文章。我们推断,将t设置在15到40之间可以适当表示我们期望在集合中看到的字段。
  我们训练了七个LDA模型,每个模型在15≤t≤50范围内具有不同的值。我们基于主题一致性得分(CS)比较了我们的模型,CS(coherence scores)是一种测试每个主题中最具代表性的单词之间语义相似度的指标。较高的CS分数通常表示模型具有更好的识别不同主题的能力。在我们的模型中,一致性得分最高的是cs(t=20)=0.515。然后,我们使用t = 20的模型将帖子文本转换为主题分布。LDA返回给定文档中出现每个主题的概率,因此我们选择出现概率最高的主题来表示每一篇文章。例如,如果文档x的主题分布为[t1=0.7,t2=0.3],我们会将其标记为表示主题t1。表4显示:(1)发现的20个主题,(2)每个主题最具代表性的文章数,(3)每个主题十个最具代表性的词。
15

Kolmogorov-Smirnov test

  我们感兴趣的是测试属于给定主题的文章子集的度量值是否与其他文章中的值存在显著差异。为此,我们使用了两个样本的柯尔莫诺夫-斯米尔诺夫检验(KS检验)。KS检验是对两个连续的一维概率分布的非参数统计检验。它不对这两个分布的正态性做出任何假设,并测试这两个分布是否从是相同的总体(或具有相同分布的总体)中抽样的。KS检验给出两个值:(1)KS统计量,该统计量是从两个分布的累积分布之间的最大距离(称为最高点)得出的,以及(2)表示观测到的KS统计量显著性的p值。这个p值回答的问题可以表述如下:如果我们假设这两个样本来自同一个总体,那么观察这些分布之间给定距离的可能性有多大?一个小的p值(p<0.05)表明从同一群体的样本中看到这种差异的概率很低,并且我们可以拒绝原假设,在这种情况下,原假设表明两个样本来自同一群体。我们通过以下方式制定假设:

16

其中P和Q是用作KS检验输入的两个样本,H0是原假设,其中两个样本来自相同的总体,H1代表我们拒绝原假设的情况。
  我们的测试设置如下。(1) 我们选择用两个标准来执行测试:多样性和极性(diversity、polarity)。(2)我们选择了几个主题,我们假设这些指标的分布与本文的其他部分明显不同。我们选择专题1(政府)、8(疫苗)、16(性别)和20(遗传学)来测试显著的多样性得分(diversity scores),专题8(疫苗)、10(农业/环境科学)、13(药物和酒精)和14(气候变化)来测试极性得分(polarity scores)。(3)我们将拒绝零假设所需的显著性水平设为α=0.05。KS检验产生一个双尾p值,因此只有当p<0.025或p>0.975时,我们才能拒绝H0,否则不能拒绝。(4)对于每个测试,我们将数据分成两组:代表给定主题的文章和所有其他文章。(5)然后,我们用给定样本上每个度量的分布进行KS检验。

Resultd and Discussion

17
  图3a显示了文章沿两个特征轴的分布:x轴上的divint index和y轴上的对数缩放的“ Reshare”计数。我们发现,大多数文章的divint index数值在0.3-0.4之间(μ=0.322,med.=0.313,SD=0.117)和相对较少的“Reshares”(此特征的统计数据如表1所示)。随着文章的divint index值的增加,文章被“Reshared”的可能性也略有增加。此关系通过图中用红色绘制的回归线显示。
  polarity数值的分布如图3b所示。尽管有更多的文章获得了正极性得分(positive polarity score),但负极性得分(negative polarity score)更接近于极值。大多数文章(80%)都得到了正价,但在任何范围内的大多数论文都集中在-1左右(意思就是在任何范围内,在-1处的文章数较多)。大约有3250篇文章的极性数值(polarity score)为-1,而只有1250篇文章的极性数值(polarity score)为1。文章在[0.6,0]范围内显著减少。这种行为不应该让我们感到惊讶:我们在图2中看到,“Likes”与“Sad”或“Anger”反应无关,但它们与“Love”反应高度相关。“Love”反应的增加往往伴随着“Like”反应的增加而发生,必然会降低这些事例的强度的数值。另一方面,增加的“Sad”或“Anger”反应并不倾向于伴随增加的“Like”反应,从而将强度得分推高。
  我们发现,Facebook用户通常对研究的反应是积极的,这与其他研究结果一致,即人们更有可能分享积极的内容,而不是消极的内容[45]; 但我们的研究结果也表明,当人们有负面反应时,他们的反应往往会更强烈,这可以从相对缺乏处于中等负面范围的文章(-0.6,0]和大量数值为-1的论文中看出。Besley和Nisbet [46]发现,在接受科学发现时,科学家认为公众是“情感的”(而不是“理性的”)和“容易恐惧的”。 在我们的数据集中,对文章表达的积极情绪反应的突出表明,对科学的“情绪”反应通常是支持的。由于消极反应或批评对特定的人来说更为突出[7,12],所以科学家们更容易注意到这些消极反应,尤其是在这些反应更为强烈的情况下。可能是这些消极但强烈的反应不成比例地塑造了科学家对公众的印象。
18
  KS测试结果见表5。对于多样性数值(diversity scores),主题16和主题20与数据集的其余部分有显著的偏差。对于极性数值(polarity scores),只有主题10显示出显著的偏差,足以拒绝原假设。已知使用相对较小的样本进行测试时,KS检验更有可能导致无法拒绝原假设。主题16(性别)只有17篇文章代表样本,因此我们特别惊讶地发现,在如此小的样本量下,有如此显著的结果。
  我们也为未能拒绝原假设的情况感到惊讶,特别是针对主题8(疫苗)的任何一个度量。人们对疫苗研究的负面情绪反应广为人知,并在社交媒体平台上广为流传,但我们的数据表明,对该主题的负面反应并未明显偏离使用者对整个研究的反应。可能是这样的,因为我们正在通过Altmetric的数据库跟踪科学文章,我们只看到那些已经接受该领域科学发现的人对疫苗研究的反应。要想找到不同意见,我们就必须把目光放在科学研究领域之外。
  我们在图2a中看到的反应分布可能是我们选择的研究领域的结果。例如,如果我们研究主要新闻机构的文章,我们可能会发现负面情绪有更高的表现。在针对学术研究的份额时,我们选择了一个通常被认为是情感中立的领域,尽管它并非完全没有争议的话题。但即使是查看流行的新闻来源,我们也假设负面反应会因为同样的原因(它们与“Likes”的高度相关,以及用户选择它们所需要的额外工作量)出现在正面反应之后。
  许多社交媒体研究本质上是预测性的。从事这一领域工作的人开发的模型经常使用altmetrics的特征来预测哪些研究成果将是重要的,某个领域中的新星是谁[47],或者发现可能被忽略的令人惊讶的文章[48]。本文提出的特征转换与生成方法也可用于预测任务。预测模型还依赖于对用于训练和测试的数据的深入了解;因此,我们在这里提出的分析可以作为其他有兴趣利用社交媒体数据预测科学成果的研究人员的基础。
  我们使用我们的度量标准来确定对科学领域的总体情绪反应,而不是对单个文章的情绪反应,但是我们的方法也可以用于单个帖子。内容管理者或平台可能希望快速高效地找到负面或有争议的内容,以改善用户体验。它还可以帮助科学家和研究人员更好地理解他们在更广泛的社会中塑造情感动力的作用。我们的度量标准提供了一种识别对稀疏反应曲线敏感的材料的方法,以便在必要时可以快速有效地做出适当的反应。

Conclusion and Future Work

  在本文中,我们提出了一种基于点击的反应分析的新方法。我们通过分析Facebook对发布在公共页面上的学术文章的反应数据集,改进了这种方法,并将其用于探索用户对科学主题的情绪反应。我们提出了一种根据TF-IDF统计数据转换基于点击反应的分析方法。我们借鉴了行为心理学的概念,开发了一些度量方法,用这些转换后的特征来衡量用户的总体行为。最后,我们使用LDA主题建模和统计测试来发现科学主题令人惊讶的情绪反应。
  寻找情绪多样性或强烈强度的实例有助于理解社区动态。冲突和分裂可能是群体分裂的断层线,找到识别它们的方法并在必要时进行干预可以提高成员的凝聚力。这些划分也使我们能够意识到许多在线平台上存在的多样性。根据本文的贡献,我们计划使用社会网络分析来更好地了解情绪是如何在科学界传播的。我们将调查情绪如何影响网上虚假信息和虚假信息的散布,以及它们在向非专家有效传达调查结果方面所扮演的角色。探索这些及其他相关问题最终将导致更好的研究结果,并将增进我们对情绪在塑造科学家和公众之间的交流中所产生影响的理解。

Acknowledgments

This work was partially supported by Argonne National Laboratory under grant number G2A62716.

References

略!


坚持原创技术分享,您的支持将鼓励我继续创作!
显示 Gitment 评论
0%