您好!欢迎来到99网站目录! 提交网站流程-> 注册会员 -> 提交网站 -> 等待审核...
数据统计:157个主题分类,52456个优秀站点,1730个站点正在排队审核,4573篇站长资讯
【通知】 本站经过两年的运营,得到了广大站长的支持与帮助,现对网站进行前台部分修复与改版,希望大家多提宝贵意见(2019-11-21)。

GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%(gpt/l)

来源:网络 浏览:71次 时间:2023-11-04

10月31日 消息:近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

image.png

研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。

推荐站点

  • 分类目录网分类目录网

    爱网站 - 是国内第一个专注于推广优秀网站的开放式网站,具有分类目录及资讯发布平台,收录国内外各行业优秀网站,以为站长和网站提供服务为己任,有优秀网站目录为参考,还有网站优化推广及互联网资讯服务。

    www.awz.cc
  • 77分类目录77分类目录

    77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站!

    www.77dir.com
  • 零目录零目录

    零目录(www.dir0.com)专业的网站分类目录平台!为您提供网站分类目录索引及网址大全库的建立,是目前较为专业的网站分类目录平台,为用户打造大型正规分类目录网,提供高效便捷的网址存储和查询服务的分类目录网站。

    www.dir0.com
  • 99网站目录99网站目录

    99网站目录采用全人工编辑的开放式网站分类目录,99网站大全免费收录国内外、各行业优秀网站网址,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.99dir.com
  • 高仿包高仿包

    竭誠精品-高仿世界名牌包包專賣網主營高仿LV包,高仿GUCCI古奇包,高仿HERMES愛馬仕,高仿CHANEL香奈兒,高仿PRADA,高仿巴黎世家等國際高仿包包、1比1高仿女包、高仿包、精仿奢侈品、世界名包、皮帶、皮具、手表、飾品等。LV新款包包同步香港LV專櫃及LV官方網站,LV行業最好品質!

    awhso.net
  • YY分类目录YY分类目录

    YY分类目录全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.yydir.com