图像识别准确性是当今人工智能(AI)面临的一个十分重要但常常被忽视的挑战。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种新的度量标准——最小观看时间(MVT),用于量化识别图像的难度。这一指标考虑了一个人在做出正确识别之前需要观看图像的时间长度。该研究于近期发表在《Techxplore》上。
图片来源:Techxplore假如,你正在浏览手机上的照片,突然看到一张你没见过的照片,在一张沙发上有一个毛茸茸的东西,你会想:“这会是枕头还是外套?”几秒钟后,你脑子里突然“咔嚓”响了一声——那个"毛球"是你朋友养的猫,多多。又或者,你通过文字命令要求人工智能大语言模型成生一张图片,但生成出来的图片你可能需要花上2-3秒钟甚至更长才能彻底看明白。
这个问题,有时候是人类的视觉神经系统的“缺陷”所导致的,比如看一些静止的图片,有可能你会觉得它在“动”。这就出现了一个问题,人工智能生成的图片,AI从计算机语言的角度“认为”是正确的色彩和图案,但是人类则认为奇怪,这就出现了理解上的偏差。
图片来源:集图网由此可见,你可以“瞬间”理解一些简单的图片,但为什么有些图片不能“一眼”就准确识别出来呢?
研究人员发现,现有的用于视觉对象识别软件研究的大型可视化数据库,如ImageNet和ObjectNet,倾向于包含更容易、更短时间能识别的图像。这导致模型“识别”性能指标可能被夸大,而没有真正反映模型处理复杂视觉任务的能力和鲁棒性。虽然,较大的模型在简单图像上表现出显著进步(如:ChatGPT、Gemini等),但在处理更具杂为复杂的图像时,准确性识别进展依然有限。
图片来源:知鸟网据了解,CLIP模型(结合了语言和视觉的模型)在向更接近人类识别方向发展方面表现突出。研究团队发布了按难度标记的图像集和自动计算MVT的工具,旨在将MVT纳入现有的基准测试,并将其扩展到各种应用中。这些应用包括测量测试集的难度、探索图像难度与神经关联之间的关系,以及推动目标识别技术的发展,以缩小基准测试和现实世界性能之间的差距。
研究人员表示,理解图像识别困难的概念对于提升人工智能在医疗保健、交通、家用设备等关键领域的视觉数据处理能力至关重要。通过引入MVT这样的新度量标准,研究人员能够更客观地评估人类水平性能的进展,覆盖人类能力的范围,并创建更具挑战性的数据集,从而推动新的计算机视觉技术在现实生活中实现更好的表现。这项工作也为理解和增强机器视觉模型提供了重要的洞见。
最初,团队通过创建ObjectNet数据集,揭示了人工智能大语言模型在处理“不在训练数据内”的图像时显得较为困难的问题。具体体现就在于,AI模型的图片与人类识别能力之间存在着较大差距。
研究人员认为,全新引入MVT具有里程碑的意义。尤其在医疗保健等关键领域,在使用大语言模型分析X光、CT、MRI等图像时,如何快速理解复杂的图像显得尤为重要——这些图像往往不能“一眼”识别出问题所在。
不过,研究人员主张用更加专业的训练方式对图像复杂程度进行细致的分析,以确保人工智能系统评估的准确性。研究人员表示,通过“最小观看时间难度指标”的调整,实现更强大的、类似人类的物体识别性能铺平了道路,确保大模型能够真正应对现实世界视觉理解的复杂性。
展望未来,研究人员的目标不仅是提高人工智能对图像难度的分析和预测能力,还包括人类查看和识别时间难度与图像复杂程度之间的关系,以便生成更难或更容易理解的图像。
总的来说,研究人员对MVT的研究,揭示了人工智能在视觉识别方面还有较大的进步空间,为构建更强大、更接近人类水平的视觉理解系统提供了重要的指导和见解。随着研究的不断深入,我们有望看到人工智能在处理复杂视觉任务方面的显著提升,并在现实世界的应用中发挥更大的作用。
欢迎点赞、评论、转发、收藏,感谢您的支持!
#优质作者榜#转载请注明:http://www.0431gb208.com/sjszjzl/6956.html