当心大数据中的“陷阱”

编辑和翻译:Yan Pu,Xenia,Zhou Xiwen,Zhang Yu,Wang Yusen,Chen Yujun

现在,随着人类行为研究所不断使用私人和社交网络数据,我们正在停滞在类似的技术转折点。结合了可以使用的强大计算机资源和大型社交媒体数据集,出现了一项研究人群:他们使用机器学习,自然语言处理,网络分析和统计数据,以实现对人口组成和人类行为的前所未有的大规模测量。但是,有越来越多的证据表明,基于大数据误解真实社会现象的预测和分析。尽管对社会大数据的研究逐渐成为一项“明确”的研究,但社会学家需要加强与方法领域中不同领域的学者的合作,从简单地使用大数据到研究社会问题,到优化大数据社会研究的运作,并共同讨论符合学术标准和有效的研究规范。

Derek Ruths和Jurgen Pfeffer都来自计算机研究领域。他们在《科学》(科学)《基于社交网站的大规模行为研究》(科学)[1]中发表了一篇文章,但他们探讨了社交媒体研究中经常出现的深入问题,并讨论了如何开发大数据研究方法的更高标准和规格。

样本代表:大数据全部

数据“黑匣子”:操纵数据

在大数据领域,在线平台还具有操纵研究的能力和渠道。近年来,基于社交媒体数据的研究已经互相出现,许多研究人员使用了网站提供的应用数据界面(即API,应用程序编程接口)来获取数据。

有两个主要渠道通过API获取社交媒体数据:搜索API,即搜索一周内发布的相关信息;另一个是流动API,即确保接口开放以接受即时信息。对于非商业合作伙伴研究人员而言,网站返回的实时接口数据仅占总数据的1。尽管研究人员越来越依靠两个API来获取研究数据并通过此类数据了解人类网络活动,情感和组织方法,但这种类型的数据是否可靠并且代表性已成为一个问题,在开始大量使用社交媒体数据之前,必须回答这个问题。

在本文中,Gonzlez-Bailn等人在《大型社交网络抽样调查偏差评估》(评估大型在线网络样本中的偏见),比较了不同数量的标签的影响(在社交网络媒体中出现符号(例如标签,Twitter和其他社交网络)的单词)对研究结果。他们采集了两个独立的相关信息样本,使用搜索API和六个#tag收集了样本A,其中五个是2011年的样本,以及2012年新创建的“动员”标签(12m15m)。样品B1在西班牙收集,使用Instant Interface(流动API)和一个更广泛的范围为70useps useps heshtag,在西班牙收集了B1样品。为了更直接地比较样品A和B,团队还从仅使用六个#tag的样本B中提取了缩写的样品B2。

研究发现,通过Twitter应用程序数据接口获得的用户社交网络结构的特征在很大程度上受不同的接口类型的影响以及用于获取样品的标签数量。这项研究对使用社交媒体进行社交研究的学者具有很大的灵感:当研究人员越来越依靠社交媒体平台获取研究数据时,流行的社交大数据抽样方法可能会导致实际社会结构和用户行为的研究结果偏见。

Derek Ruths和Jurgen Pfeffer还提出,全球研究人员广泛使用的Twitter用户数据无法准确代表其用户数据。最糟糕的情况是,社交平台经理将通过未公开的算法操纵数据采样和过滤,这使研究人员陷入了困境。

人类行为?机器行为

在线社交平台的开发人员正在建立工具,以实现特定而实用的目的。这些尝试通常不能代表离线公共行为,也不能为研究人员提供高质量的研究数据。例如,诸如Google之类的搜索引擎将根据智能关联推断与用户搜索术语相关的关键字,并指导用户搜索推荐组合(编者注:研究人员将根据网站搜索数据和日志分析绘制对用户搜索行为的研究)。但是,基于此类数据的研究可能与用户的真实搜索意图完全相反。这些设计通常具有合理的应用价值,但是随着研究数据,类似的设计掩盖了人类行为的其他方面,基于此类平台的定量研究也可能会错过人类行为的全部反映。

此外,尽管平台设计师致力于调节用户的标准化使用,但在所有在线社交平台上都有大量的“僵尸帐户”,即,这些用户帐户在很大程度上是人造的,甚至是机器控制的,可以提供商业和广告营销目的。在分析社交网站上的大数据时,很难排除或纠正类似的“枪口”。

当心大数据中的“陷阱”

研究方法的束缚

在当前必须通过平台提供社交大数据的情况下,研究人员不能排除许多问题,例如无代表性的采样和噪声干扰。因此,在报告有关大数据的社会行为研究结果的过程中,研究人员需要强调研究中的潜在偏见。但是,即使研究人员意识到使用社交网站数据的偏见,相关领域的研究通常由于缺乏严格的研究方法本身而存在质量问题。

代理人不匹配:每个社交媒体研究问题都定义了兴趣人群,例如,通过社交网站研究加利福尼亚地区(UC学校)的大学生的投票偏好。研究人员经常通过Facebook用户的个人资料设置来确定研究小组(编辑注:用户可以在数据中在加利福尼亚标记他们的研究)。但是,从真实的研究小组到为社交媒体选择的表征小组,通常会出现严重的错误。最近的一项研究表明,这种代理效应导致Twitter的政治趋势研究中的估计值误估计[3]。

简而言之,在表示,抽样方法和研究方法方面,现有的大数据研究领域仍然存在许多问题。基于此,对于大多数研究人员而言,我们需要拥有的是更仔细地检查数据质量和偏差,并建立更标准化的标准。因此,更准确和有效的分析将在很大程度上取决于我们对大规模数据的谨慎态度。

如何减少大数据社会研究中的偏差

参考:

[1] Ruths,Derek和JrgenPfeffer。 “社交媒体进行大型行为研究。”科学346(6213)(2014): 1063-1064。

[2]Gonzlez-Bailn,Sandra,Ning Wang,Alejandro Rivero,Javier Borge-Holthoefer和Yamir Moreno。 “评估大型在线网络样本的偏见。”社交网络38(2014): 16-27。

[3] R. Cohen,D。Ruths,ICWSM的13:第七届国际AAAI博客和社交媒体会议论文集(AAAI,Palo Alto,CA,2013年),第91-99页。

【扩展阅读】

[列简介]

大数据和社会是新成立的大数据摘要的特殊列,致力于翻译,分类和总结有关大数据在社会科学中应用的最新研究,显示了大数据为社会研究提供的新观点,并在大数据社会科学研究中发现了有趣的主题。作为一个新成立的子列,我们期待更多的兴趣和经验丰富的志愿者加入!

[列编辑器]

当心大数据中的“陷阱”

大数据摘要文章:

回复[可视化]感觉技术与艺术的完美结合

回复[安全]有关泄漏,黑客,进攻和防御的新案件

回复[算法]人和既增加知识又有趣的事物

回复[Google]在大数据领域中查看其动作

回复[院士]查看有多少院士谈论大数据

回复[隐私]查看大数据时代有多少隐私

回复[医疗]查看医学领域的6篇文章

回复[信用报告]有关大数据信用报告的四个特殊主题

回复美国和其他12个国家的“大数据国家档案”

回复网球,NBA和其他网球的大数据应用程序案例

用户评论


哭花了素颜

这篇文章把我吓了一跳!我一直以为大数据就是为了让我们生活更便利,没想到居然会藏着这么多“陷阱”。确实应该提高警惕,保护好自己的信息安全。

    有9位网友表示赞同!


罪歌

说的没错啊,现在很多APP都要你授权访问各种权限,感觉我们都被这些巨头盯上了。大数据掌握了我们的所有信息,谁知道他们会怎么利用呢?

    有15位网友表示赞同!


墨染天下

我觉得这篇文章有点危言耸听,没必要把所有大数据都看成“陷阱”。大数据也可以用来解决很多问题,比如预测疾病流行、优化交通流量等等。关键在于如何更好地管理和使用它。

    有8位网友表示赞同!


强辩

个人觉得,我们要学会理性看待大数据。虽然存在一些风险,但它也给我们的生活带来了很多便利。与其一味恐惧,不如积极学习,掌握自己的信息安全。不要轻易泄露敏感信息,也要懂得维护自己的隐私权。

    有14位网友表示赞同!


陌上蔷薇

我最近发现,好多广告都感觉像是在看我的内心世界一样精准!简直太吓人了!我开始怀疑大数据是不是在跟踪我的日常生活……

    有6位网友表示赞同!


Hello爱情风

其实很多产品本身就带有“陷阱”,比如那些让你不断刷屏的新闻推送,或者那些让人上瘾的游戏设计。大数据只是放大了一些这种原本存在的机制而已。

    有13位网友表示赞同!


微信名字

作为一个软件工程师,我对大数据的研究比较深入,我同意文章观点,确实存在一些安全隐患。我们需要加强对个人数据的保护,制定更完善的数据隐私法规,才能让大数据真正为社会服务。

    有13位网友表示赞同!


留我一人

我一直觉得,信息时代最大的挑战就是如何保护自己的隐私。 大数据能让我们生活更便利,但也可能侵犯我们的隐私权。我们需要提高警惕,做好防护措施。

    有7位网友表示赞同!


珠穆郎马疯@

大数据是利剑,可以用在光明的一面也用在黑暗的方面。我们要理性看待它的作用,既要享受它带来的便利,也要避免掉入它的“陷阱”。

    有11位网友表示赞同!


箜篌引

对于我这种喜欢收集资料的人来说,大数据是一件很酷的东西!可以让我更深入地了解自己和这个世界。但还是要谨慎使用,保护好自己的隐私信息。

    有6位网友表示赞同!


白恍

这些年越来越觉得数据安全是个问题,很多东西都与你的个人信息关联起来,不小心就会暴露太多信息。这篇真是提醒我了 要提高警惕意识!

    有14位网友表示赞同!


十言i

我认为大数据技术本身并没有什么错,但它的应用环境和监管制度才是重点。只有完善了相关的法律法规,才能真正利用大数据的优势,避免其中的“陷阱”。

    有13位网友表示赞同!


傲世九天

同意了!现在很多 APP 都要求访问我们的联系人、定位等信息,感觉隐私被侵害太多!应该提高意识保护自己,不轻易透露敏感信息!

    有9位网友表示赞同!


半梦半醒半疯癫

我觉得这篇文章说的很透彻啊!尤其提醒我们要理性看待大数据带来的便利,不能被它所诱惑失去自我认知和边界感。

    有5位网友表示赞同!


棃海

我曾经有过几次因为网络诈骗而受骗的经历,每次都被利用了我的个人信息。所以更加认同文章所说的,我们要警惕大数据中的“陷阱”!

    有17位网友表示赞同!


孤岛晴空

作为科技公司员工的我觉得这篇博客有必要读, 对大数据未来的发展有很多反思, 确实需要加强数据安全的管理和技术手段, 为用户提供一个安全、信任的数据环境.

    有11位网友表示赞同!


病态的妖孽

我个人觉得这个时代最大的危险就是信息的过度收集,每个人都可以被“量化”起来,失去了自身的独特价值。我们需要重视隐私权,找到大数据和人性的平衡点。

    有9位网友表示赞同!


封锁感觉

虽然大数据技术有着很多应用前景,但我始终无法忽视它潜在的危害。需要政府和社会共同努力,制定完善的政策法规,引导大数据的健康发展。

    有9位网友表示赞同!

上一篇
下一篇

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@zhutibaba.com

工作时间:周一至周五,9:00-17:30,节假日休息
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

手机访问
手机扫一扫打开网站

手机扫一扫打开网站

返回顶部