首页生活资讯正文

为流量引发读者大战。MIT学生研究100家顶级媒体,超300万篇新闻,发现根本没有「中立」

2024-10-17 次浏览


新智元报道

起源:arXiv

为流量引发读者大战。MIT学生研究100家顶级媒体,超300万篇新闻,发现根本没有「中立」
(图片来源网络,侵删)

编纂:LRS

【新智元导读】存在中立的媒体吗。MIT 比来研讨了100家顶级媒体,超三百万篇消息发现,各个媒体都存在左右倾向,分歧倾向的媒体在用词上存在很年夜的差异,有时为了吸引流量,还会激发读者年夜战。

统一句话换种方式表达,可能就表达了措辞人的倾向。

我们日常平凡打仗最多的便是各种媒体的消息报道,他们向读者或观众传输他们的设法主意,而各个媒体都有他们本身的态度,依据他们本身的成见,从而对统一件事的报道可能有分歧的说话,从而对观众的设法主意发生影响。

比来麻省理工学院的一项研讨大概可以或许帮你还原媒体的真实面目。

研讨职员使用机械进修技术,经由过程对美国及其他地域年夜约100家最年夜和最有影响力的消息媒体的成见用语的辨认,可以或许主动化地对媒体内容进行阐发。这项研讨事情可以主动对出书物的政治特性进行分类,并让读者更深刻地相识媒体在他们可能热衷的话题上的道德和政治态度。


https://arxiv.org/pdf/2109.00024.pdf

这项事情主要研讨在处置某个特定主体环境下,各个媒体使用的说话方式有何分歧,例如媒体使用的词是无证移平易近(undocumented immigrant)照样非法移平易近(illegal immigrant),胎儿(fetus)照样未出身的婴儿(unborn baby),请愿者(demonstrators)照样无当局主义者(anarchists)。

研讨职员使用天然语言处置(NLP)技术,从年夜约100个消息媒体的跨越300万篇文章中抽取这些带有成见的charged语言词,并分类为左倾和右倾的成见(中性的术语也代表政治态度)。

文章的作者是MIT 物理系的学生 Samantha D'Alonzo 和 Max Tegmark,他们察看到太多了「fake news」,而且看到了一些所谓赞助反省事实(fact checking)的媒体现实上也是受到好处驱动,提供一种虚假的戳穿谎言的服务后,就萌生了一种探求中立消息的设法主意,旨在提供一种数据驱动的办法来研讨成见,和成见若何影响语言的使用。


例如固然一些词是表达雷同意思,但在消息中使用,分歧说话可以表达作者的左右倾向。


该研讨的源数据来自开源的Newspaper3K数据库,包含来自100个媒体消息起源(包含83家报纸媒体)的3,078,624篇文章。报纸的选择是依据其影响规模选择的,根本都是影响力最年夜的报纸,而在线媒体起源还包含来自军事消息阐发网站Defense One和Science的文章。


下载的文本颠末「最低限度」的预处置,由于该研讨只对记者选择的语言感兴致,以是文章内的直接引用都被删除失落了,只管引用选择也能代表作者的必定选择倾向。

预处置还包含英式拼写改为美式拼写,用来对数据中的词进行尺度化,删除所有标点符号,除序数外的所有拼写也删除。句子开首的第一个字母从年夜写转换为小写,但句子中其他所有年夜写字母保存不变。

找到呈现频率最高的100,000个最常见的短语,然落后行排序、肃清后归并到短语列表中。假如短语中存在冗余(例如share the article和article republished),根本雷同的短语(如big tech和Big Tech、cybersecurity和cyber security)之间的变化被尺度化之后也同样被删失落。

研讨职员起首测试了有关Black Lives Matter (BLM) 相关的消息,BLM始于2013年,意为「黑人的命也是命」,是一场国际维权活动,来源于非裔美国人社区,抗议针对黑人的暴力和体系性轻视。BLM 抗议通常在产生警员击杀黑人变乱后,同时这项活动也否决如种族归纳、暴力执法和美国刑事法律体系中的种族不屈等等更为普遍的问题。

对统一消息的各个出书社的道德态度也分歧,以是在用词上也年夜有分歧。社会对付BLM活动的反响各不雷同,分歧种族的美公民众对付活动的见地迥异,后来又逐渐成长为All Lives Matter, Blue Lives Matter。

各个媒体对介入介入BLM平易近事行为(civil action)的人从字面上和比方上从左到右被描写为请愿者demonstrators、无当局主义者anarchists,而在最右端则被称为歹徒rioters。


跟着媒体政治态度的分歧,描写抗议者protestors从无当局主义者anarchists改变为歹徒rioters,但该论文指出,NLP的提取和阐发态度受到一些媒体胡乱花词(nutpicking)的滋扰,也便是媒领会为了媚谄、区分本身的观众,而特意使用一些非中立的、极度的词来切割受众,而且很显然会引发读者的负面情绪。

例如在BLM 运动中有一个口号是「撤销警员资助」(defund the police),明眼人一下就能看出来这个口号是何等故意义,但又何等傻,并可能带来更多的危险,但假如你是一个自由主义者,又有什么理由回绝这个口号。

这项研讨还揭示了堕胎、技术审查、美国移平易近和枪支管制等热点话题的相似结论。

固然分歧媒体都存在分歧政治倾向,但他们在某些方面也有可能见地雷同,例如在军费开支的话题上,左倾媒体CNN和右倾媒体Nation Review和福克斯消息表达了雷同的见地。

一样平常来说,政治态度可以由其他短语决议,例如一个媒体假如更喜欢用军事工业综合体military-industrial complex而不是国防工业defense industy,那就必定水平上可以阐明他是左倾的。

研讨成果也注解,军事工业综合体常常被Canary和American Conservative等机构症结媒体使用,尔后者更常被Fox和CNN使用。


该研讨也认可,无论是在语言层面,照样出于各类其他念头,媒体有时会解脱他们的根本政治态度。例如,成立于 1828 年的右翼英国出书物《观看者》(The Spectator)常常凸起地展现左翼思惟作品,这些作品与其内容的一样平常政治态度南辕北辙。

作者料想如许做有可能是出于公正报道的感觉,也有可能是为了按期从其焦点读者群体收割评论和流量,当然,这仅仅只是料想。


不外该项目宣布的数据今朝只展现了单词短语的频率计数,但彷佛是匿名的,是以很难清晰地相识所研讨的出书物中的媒体成见,如许只能依据论文中先容的选定示例来看到各个媒体的试验成果。

并且他们只斟酌了媒体对某个主题的说话,但还必要斟酌该主题是否被说起,那么这种性子的后期研讨可能会更有效,由于「缄默阐明了统统」,假如媒体对这件事没有发声,自己就具有了显著的政治特性,而不仅仅只是预算限定或其他可能影响消息选择的因素。

只管如斯,MIT的研讨彷佛照样迄今为止同类研讨中范围最年夜的一项,而且可以形成将来分类体系的框架,乃至可以形成诸如阅读器插件之类的技术,这些技术可能会提示通俗读者注意他们今朝正在浏览的出书物的政治颜色。

此外,还必需斟酌如许的体系是否会进一步加剧算法保举体系最具争议的方面之一,即将观众领导到他们从未看到过的、具有推翻性概念的情况中的趋向,并进一步缩减读者在焦点问题上的态度。

如许的内容泡沫是否是平安情况、智力增加的障碍,或对部门鼓吹的掩护,或是一种代价断定,这是一个哲学问题,从机械进修体系的机器、统计角度很难办理。

此外,只管MIT的研讨煞费苦心肠让数据来界说成果,但对短语的政治代价的分类弗成避免地也是一种代价断定,而且没有才能处置新发明出来的短语。

假如这种体系真的被纳入了审查体系,那么主流媒体和人工智能之间注定有一场年夜战,作者会赓续想出新的短语来绕过辨认,只管Bert模子在特定义务的后果超出了人类,但人对语言、语义的懂得还不是机械可以或许匹敌的。

参考材料:

https://arxiv.org/pdf/2109.00024.pdf


媒体研讨年夜
网易云音乐推出《赛博唱片》播放器皮肤,赛博科技播放风格免费体验 名师总结小升初数学知识点总结,看完可提高20分
相关内容