大数据时代,物联网这张大网下错误信息无所遁形
加州大学河滨分校的计算机科学家正在开发工具来帮助跟踪和监控新冠肺炎症状,并筛选社交媒体上有关该疾病的错误信息。
使用谷歌趋势数据,由马兰和罗斯玛丽伯恩斯工程学院副教授开发了一种算法,该算法确定了新冠肺炎独有的三种症状:舌头味觉功能丧失,呼吸急促,嗅觉丧失。
使用谷歌流感趋势的大部分工作都集中在预测流感季节,另一方面,我们用它来看看我们是否能在大海捞针中找到一根针:在人们寻找的所有流感样症状中,新冠肺炎独有的症状。
研究人员在2019年和2020年的Google趋势中定位了症状,并使用一种DNA的技术来提取数据集。
假设2019年的症状搜索会导致流感或其他呼吸系统疾病,而2020年搜索相同症状的可能两者皆有,使用DNA,我们能够找到两个数据集之间的差异。这恰好是临床医生已经确定为新冠肺炎独有的术语,表明我们的方法有效。
Papalexakis和Chen预计他们的工作,将帮助流行病学家和其他公共卫生专家,使用谷歌趋势作为医院数据的代理来跟踪和监控新冠肺炎。
谷歌趋势数据非常嘈杂,但医院数据不公开。人们搜索症状可能是因为他们正在经历这些症状,或者因为他们听说过这些症状并想了解更多,搜索比积极体验症状的人更能反映对症状的兴趣,但鉴于缺乏其他数据,该工具可以帮助研究人员更好地了解症状。
该算法简单易行,作为一种潜在工具的一部分,可以帮助研究其他疾病的科学家了解潜在症状。
从Google趋势数据中发现新冠肺炎症状的判别性知识发现,发表在2021年的EpiDAMIK研讨会上,该研讨会是一个关于推进流行病学知识的数据挖掘研讨会。该研讨会是作为最大的年度数据科学会议、计算机协会或ACM的一部分组织的。
Papalexakis和加州大学河滨分校的博士生William Shiao也在开发一种工具,该工具不仅可以识别新冠肺炎的错误信息,还可以说明为什么这些与有关冠状病毒相关联的数据被标记为虚假信息。
Papalexakis和Shiao使用了白宫和一个研究小组联盟准备的新冠肺炎开放研究数据集挑战新冠肺炎中的90,000篇文章,并收集了20,000篇关于新型冠状病毒的错误信息的“野外”文章。使用他们称为KI2TE的基于相似性矩阵的嵌入方法,将文章链接到一组参考文档并进行解释。用于参考的文件是新冠肺炎数据集中包含的一组有关冠状病毒研究的学术论文。
当对被人类标记为虚假或被Google Fact Check识别为虚假的文章进行测试时,他们的方法不仅正确识别了虚假故事,而且还指出了证实系统决策的科学来源。
尽管Papalexakis和Shiao开发的工具是一个正在积极研究开发的原型,但它最终可能会被整合到智能手机应用程序或Facebook等社交媒体平台中。
来源:贤集网
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。