芬蘭研究人員通過ins預(yù)測流感 利用社交媒體衡量人口健康趨勢
12月1號消息,本周二,一篇名為“Predicting the flu from Instagram”(通過Instagram預(yù)測流感)的論文在康奈爾大學(xué)arXiv服務(wù)器上發(fā)布,作者是來自芬蘭坦佩爾大學(xué)醫(yī)學(xué)院的Oguzhan Gencoglu和軟件服務(wù)公司Tieto,Ltd的Miikka Ermes。
芬蘭的AI研究人員利用公共健康數(shù)據(jù)嚴(yán)格收集了這個國家的500萬居民,在Instagram上比對“流感”標(biāo)簽,以及人們提出流感藥物的圖像,發(fā)帖與記錄的流感爆發(fā)有顯著的統(tǒng)計(jì)相關(guān)性,預(yù)測流感爆發(fā)的歷史公共衛(wèi)生數(shù)據(jù)。這是利用社交媒體衡量人口和健康趨勢的一系列嘗試中的最新舉措。
作者提出他們的論點(diǎn)是“首項(xiàng)在社交媒體中使用圖像來預(yù)測流感流行病的研究”,但他們也列出了關(guān)于社交媒體的其他研究,例如關(guān)于抑郁癥指標(biāo)的Instagram帖子研究和煙草使用。
對于很多人關(guān)注的隱私問題,他們稱只使用公開發(fā)布過的,基于python的網(wǎng)絡(luò)爬蟲程序收集數(shù)據(jù),并且爬蟲只記錄了發(fā)布日期和主題標(biāo)簽,以及單個圖像URL,它沒有記錄用戶名,也沒有存儲任何圖像。
從2012年4月到2018年5月,調(diào)查人員在Instagram上收集了六年的帖子,超過22,000份,收集芬蘭語中有關(guān)疾病的標(biāo)簽,例如芬蘭語“flunssa”,意思是流感,或“l(fā)ihaskipu”,意思是肌肉酸痛。對Gencoglu和Miikka這項(xiàng)研究來說,重要的是他們能夠?qū)⑺阉飨拗圃凇皢我徽Z言和國家”,以便能夠?qū)⑻优c單個國家的健康數(shù)據(jù)進(jìn)行比較。
Gencoglu和Miikka通過將帖子中的標(biāo)簽參考數(shù)量,與芬蘭國家健康與福利研究所記錄的官方流感發(fā)病率相關(guān)聯(lián),歸類了9種不同的神經(jīng)網(wǎng)絡(luò)模型。他們對五年的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),然后用第六年的Instagram數(shù)據(jù)和健康數(shù)據(jù)來測試模型。
論文稱,最好的臨近預(yù)報(bào)模型的平均絕對誤差為每周11.33次事故,測試數(shù)據(jù)的相關(guān)系數(shù)為0.963。用于預(yù)測1周和2周的預(yù)測模型顯示出統(tǒng)計(jì)顯著性,同時達(dá)到相關(guān)系數(shù)分別為0.903和0.862。這項(xiàng)研究表明社交媒體,特別是數(shù)字照片的公開分享,可以成為流行病學(xué)領(lǐng)域的寶貴信息來源。
這種社交媒體搜索的一個重要問題是,如何通過媒體本身來改變統(tǒng)計(jì)數(shù)據(jù)。作者指出谷歌2013年“谷歌流感”搜索趨勢失敗,因?yàn)椤懊襟w對谷歌工作的高度關(guān)注”歪曲了搜索活動。因此,他們得出結(jié)論,在未來的工作中,將每周帖子數(shù)量“標(biāo)準(zhǔn)化”與人口中每周Instagram帖子的總數(shù)相比,通過考慮平臺的受歡迎程度來提高預(yù)測性能。
關(guān)注我們
