图像识别准确性:当今人工智能面临的一个看不见的挑战

想象一下，你正在浏览手机上的照片，看到一张你一开始不认识的照片。它看起来像是沙发上毛茸茸的东西;会是枕头还是外套?几秒钟后，它咔哒一声响了——当然!那个毛球是你朋友的猫，摩卡。虽然你的一些照片可以瞬间理解，但为什么这张猫的照片更难理解呢?

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员惊讶地发现，尽管理解从医疗保健到交通到家用设备等关键领域的视觉数据至关重要，但人类对图像识别困难的概念几乎完全被忽视了。基于深度学习的人工智能进步的主要驱动力之一是数据集，但我们对数据如何推动大规模深度学习的进步知之甚少。

在需要理解视觉数据的现实世界应用中，尽管模型在当前数据集上表现良好，包括那些明确设计用于挑战具有无偏差图像或分布变化的机器的数据集，但人类的表现优于对象识别模型。这个问题仍然存在，部分原因是我们没有关于图像或数据集的绝对难度的指导。如果不控制用于评估的图像的难度，就很难客观地评估人类水平性能的进展，覆盖人类能力的范围，并增加数据集带来的挑战。

为了填补这一知识空白，麻省理工学院电子工程和计算机科学博士生、CSAIL附属机构的大卫·梅奥(David Mayo)深入研究了图像数据集的深层世界，探索为什么某些图像对人类和机器来说比其他图像更难识别。“有些图像本身需要更长的时间来识别，了解大脑在这个过程中的活动及其与机器学习模型的关系至关重要。也许在我们目前的模型中缺少复杂的神经回路或独特的机制，只有在具有挑战性的视觉刺激下才能看到。这项探索对于理解和增强机器视觉模型至关重要，”梅奥说，他是一篇关于这项工作的新论文的主要作者。

这导致了一种新的度量标准的发展，即“最小观看时间”(MVT)，它根据一个人在做出正确识别之前需要观看多长时间来量化识别图像的难度。使用ImageNet(机器学习中流行的数据集)和ObjectNet(用于测试物体识别稳健性的数据集)的一个子集，研究小组向参与者展示了不同持续时间的图像，从短至17毫秒到长至10秒不等，并要求他们从一组50个选项中选择正确的物体。在进行了超过20万次的图像表示试验后，该团队发现，现有的测试集，包括ObjectNet，似乎倾向于更容易、更短的MVT图像，绝大多数基准性能都来自于对人类来说容易的图像。

该项目确定了模型性能方面有趣的趋势——特别是在缩放方面。较大的模型在简单的图像上表现出相当大的进步，但在更具挑战性的图像上进展不大。CLIP模型结合了语言和视觉，在向更像人类的识别方向发展的过程中脱颖而出。

“传统上，目标识别数据集倾向于不太复杂的图像，这种做法导致了模型性能指标的膨胀，而不是真正反映模型的鲁棒性或其处理复杂视觉任务的能力。我们的研究表明，较硬的图像构成了更严峻的挑战，导致了通常在标准评估中没有考虑到的分布变化，”梅奥说。“我们发布了按难度标记的图像集，以及自动计算MVT的工具，使MVT能够添加到现有的基准测试中，并扩展到各种应用程序中。其中包括在部署真实世界系统之前测量测试集的难度，发现图像难度的神经关联，以及推进目标识别技术以缩小基准测试和真实世界性能之间的差距。”

“我最大的收获之一是，我们现在有了另一个维度来评估模型。我们希望模型能够识别任何图像，即使——也许尤其是在——人类很难识别的情况下。我们是第一个量化这意味着什么的公司。我们的研究结果表明，目前的技术水平不仅不是这样，而且我们目前的评估方法也没有能力告诉我们什么时候是这样的，因为标准数据集太倾向于简单的图像，”麻省理工学院电子工程和计算机科学研究生杰西·卡明斯(Jesse Cummings)说，他是该论文的第一作者之一。

从ObjectNet到MVT

几年前，这个项目背后的团队发现了机器学习领域的一个重大挑战:模型正在努力处理非分布图像，或者在训练数据中没有很好地表示的图像。进入ObjectNet，这是一个由从现实环境中收集的图像组成的数据集。该数据集通过消除其他基准测试中存在的虚假相关性(例如，对象与其背景之间的相关性)，帮助阐明了机器学习模型与人类识别能力之间的性能差距。ObjectNet阐明了机器视觉模型在数据集上的性能与在现实世界应用程序中的性能之间的差距，鼓励许多研究人员和开发人员使用-这随后提高了模型性能。

时间快进到现在，该团队在MVT上的研究又向前迈进了一步。与关注绝对性能的传统方法不同，这种新方法通过对比模型对最简单和最难图像的反应来评估模型的表现。该研究进一步探讨了如何解释和测试图像困难与人类视觉处理的相似性。通过使用c-score、预测深度和对抗鲁棒性等指标，研究小组发现，网络处理较难的图像的方式不同。梅奥说:“虽然有一些可观察到的趋势，比如更容易的图像更具有原型性，但科学界仍然无法对图像难度进行全面的语义解释。”

例如，在医疗保健领域，理解视觉复杂性的相关性变得更加明显。人工智能模型解释医学图像(如x射线)的能力取决于图像的多样性和难度分布。研究人员主张对专业人士量身定制的难度分布进行细致的分析，确保人工智能系统根据专家标准进行评估，而不是外行的解释。

梅奥和卡明斯目前也在研究视觉识别的神经学基础，探究大脑在处理简单和具有挑战性的图像时是否表现出不同的活动。这项研究旨在揭示复杂图像是否会占用通常与视觉处理无关的额外大脑区域，希望有助于揭开我们的大脑如何准确有效地解码视觉世界的神秘面纱。

迈向人类水平的表现

展望未来，研究人员不仅专注于探索如何提高人工智能对图像难度的预测能力。该团队正致力于识别与观看时间难度之间的关系，以便生成更难或更容易的图像版本。

尽管这项研究取得了重大进展，但研究人员承认其局限性，特别是在将物体识别与视觉搜索任务分离方面。目前的方法专注于识别物体，忽略了杂乱图像带来的复杂性。

梅奥说:“这种全面的方法解决了客观评估人类在物体识别方面的表现的长期挑战，并为理解和推进该领域开辟了新的途径。”“有可能为各种视觉任务调整最小观看时间难度指标，这项工作为更强大的、类似人类的物体识别性能铺平了道路，确保模型真正投入测试，并为现实世界视觉理解的复杂性做好准备。”

约翰霍普金斯大学彭博认知科学与计算机科学杰出教授Alan L. Yuille表示:“这是一项引人入胜的研究，研究了人类感知如何用于识别人工智能视觉模型通常基准测试方式中的弱点，这些弱点通过专注于简单的图像而高估了人工智能的性能。”“这将有助于制定更现实的基准，不仅可以改进人工智能，还可以在人工智能和人类感知之间进行更公平的比较。”

“人们普遍认为计算机视觉系统现在优于人类，在一些基准数据集上，这是真的，”Anthropic技术人员Simon Kornblith博士说，他也没有参与这项工作。“然而，这些基准测试的很多困难来自于图像的模糊性;一般人只是不知道如何区分不同品种的狗。相反，这项工作关注的是人们只有在给予足够时间的情况下才能正确拍摄的图像。这些图像对于计算机视觉系统来说通常要困难得多，但最好的系统只比人类差一点点。”

Mayo, Cummings和Xinyu Lin MEng ' 22与CSAIL研究科学家Andrei Barbu, CSAIL首席研究科学家Boris Katz和MIT-IBM沃森人工智能实验室首席研究员Dan Gutfreund一起撰写了这篇论文。这些研究人员隶属于麻省理工学院大脑、思维和机器中心。

该团队将在2023年神经信息处理系统会议(NeurIPS)上展示他们的工作。

作者：瑞秋·戈登|麻省理工学院CSAIL

链接：https://news.mit.edu/2023/image-recognition-accuracy-minimum-viewing-time-metric-1215

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

声明：海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的，并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益，请作者与本网联系，我们将及时更正、删除，谢谢。电话：15264513609，邮箱：1027830374@qq.com

栏目

行业新闻

公司动态

时间

2023-12-21 12:55:03

作者

瑞秋·戈登|麻省理工学院CSAIL