
4月愚人的騙局可以為發現“假新聞”文章提供語言線索,因為幽默欺騙和惡意故事中使用的語言的相似之處。
來自英國蘭開斯特大學的研究人員編制了4月500多個愚人節的數據集,這些文章來自超過370個網站,并編寫了14多年。
他們發現,媒體網點和假新聞故事發布的幽默愚人節的書面結構中存在相似之處。
“愚人節的惡作劇是非常有用的,因為他們向我們提供了一個可驗證的欺騙性文本,讓我們有機會了解作者將虛構偽裝為事實賬戶的東西時使用的語言技術,”來自蘭卡斯特大學的Edward Dealden表示。
“通過觀察四月愚人的語言并將它們與假新聞故事進行比較,我們可以更好地了解了作者使用的作者使用的語言,”奧斯特登說。
4月愚人節對與同期寫作的正版新聞文章的欺騙文本的比較顯示了風格差異。
研究人員專注于文本內的特定功能,例如使用的細節量,模糊性,寫作風格的形式和語言的復雜性。
然后,他們將4月愚人的故事與“假新聞”數據集進行比較,發現了許多類似的特征。
這些文章傾向于含有更復雜的語言,更容易閱讀難??度,而且比真正的新聞更長的句子。
關于新聞報道的重要細節,例如名稱,地方,日期和時間,被發現在4月份的傻瓜的惡作劇和假新聞中少頻繁使用。研究人員說,第一人稱代詞,如“我們”,也是四月愚人節和假新聞的突出特色。
該團隊還創建了一臺機器學習“分類器”以確定文章是否是愚人節的惡作劇,假新聞或真正的新聞故事。
分類器在識別4月愚人節和72%的識別假新聞報道的72%方面取得了75%的準確性。
當分類器在4月份愚蠢的惡作劇培訓并設置識別假新聞的任務時,它記錄了超過65%的準確性。
蘭卡斯特大學的Alistair Baron說:“在文本中查看文本中的細節和復雜性是至關重要的,”蘭開斯特大學的Alistair Baron說。
“雖然存在許多差異,但我們的結果表明,愚人節和假新聞文章分享了一些類似的特征,主要涉及結構性復雜性,”Baron說。
“我們的調查結果表明,不同形式的誹謗和探索這些相似之處有一定的特征可以為未來的欺騙性新聞故事提供重要的見解,”他說。