我们信任数据,认为数据总是客观情况的客观反映。可事实真的如此吗?
当下,人工智能分析处理数据的速度远超人类分析师,并且能够找出人脑难以发现的行为模式和规律,但是也会犯下人脑不会犯的错误。
复旦大曾学开设了一门新的通识课程,邀请学校多个专业的教授对学生每天可能接触到的信息进行“真伪鉴定”,向学生阐述什么是“伪科学”,一经开课便节节爆满。
这门名叫“似是而非”的新课并非复旦大学首创,它的灵感来源于美国华盛顿大学的“拆穿胡扯”( Calling Bullshit )公开课。
生物学家Carl Bergstrom和数据科学家Jevin West在他们的新书《拆穿胡扯:数据世界的怀疑艺术》(Calling Bullshit: The Art of Scepticism in a Data-Driven World)中,分享了如何识别科学论文、新闻报道、广告、社交媒体内容中误导人的统计方法。
“数字简直是传播胡扯的完美载体。”两位作者说,“它们看上去很客观,但很容易被人利用。”
识别数据陷阱,已然成为当代生活的刚需。
作者伯格斯特龙和韦斯特认为:
数据胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的。
数据胡扯的最终目的,是通过有意为之的操作,使本应该客观的数据,为己所用。
我们暴露在胡扯面前的时间和机率可能远远超过我们所认为的,形式也是五花八门。
那么,应如何避开数据陷阱呢?首先,需要人脑干预。
只有人具备给数据分类打标签的能力,因此不能简单地把数据丢给机器算法,寄希望于人工智能解决所有问题而无须人脑干预。
其次是防止数据删失(data censoring),制作进准的数据模型,数据删失是一种选择偏倚,指的是故意或无意将特定数据从最终分析中剔除,这可能会导致不准确和误导性的结果。如果遗漏了关键数据,研究的结论就可能是无效的。看数据集的时候,一定要关注它没有显示的东西。
提防有缺陷的数据,那些充斥着专业的术语、晦涩的技术、专门的设备的论文可能很难评估。与其尝试把这些元素理出个究竟,建议直接分析数据。无论一篇论文的技术性有多强,如果方法或结论不符合常识,它即可能有严重缺陷。
防止陷入“数据陷阱”,需要保持冷静并明智地使用数据。
2022-07-05 08:32:02