您好!欢迎来到99网站目录! 提交网站流程-> 注册会员 -> 提交网站 -> 等待审核...
数据统计:157个主题分类,52457个优秀站点,1730个站点正在排队审核,4573篇站长资讯
【通知】 本站经过两年的运营,得到了广大站长的支持与帮助,现对网站进行前台部分修复与改版,希望大家多提宝贵意见(2019-11-21)。

谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻(dag模型)

来源:网络 浏览:143次 时间:2023-11-09

11月9日 消息:最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。

研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。

image.png

论文地址:https://arxiv.org/pdf/2311.01964.pdf

在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。

研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。

为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。

该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。

这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。

推荐站点

  • 分类目录网分类目录网

    爱网站 - 是国内第一个专注于推广优秀网站的开放式网站,具有分类目录及资讯发布平台,收录国内外各行业优秀网站,以为站长和网站提供服务为己任,有优秀网站目录为参考,还有网站优化推广及互联网资讯服务。

    www.awz.cc
  • 77分类目录77分类目录

    77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站!

    www.77dir.com
  • 零目录零目录

    零目录(www.dir0.com)专业的网站分类目录平台!为您提供网站分类目录索引及网址大全库的建立,是目前较为专业的网站分类目录平台,为用户打造大型正规分类目录网,提供高效便捷的网址存储和查询服务的分类目录网站。

    www.dir0.com
  • 99网站目录99网站目录

    99网站目录采用全人工编辑的开放式网站分类目录,99网站大全免费收录国内外、各行业优秀网站网址,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.99dir.com
  • 高仿包高仿包

    竭誠精品-高仿世界名牌包包專賣網主營高仿LV包,高仿GUCCI古奇包,高仿HERMES愛馬仕,高仿CHANEL香奈兒,高仿PRADA,高仿巴黎世家等國際高仿包包、1比1高仿女包、高仿包、精仿奢侈品、世界名包、皮帶、皮具、手表、飾品等。LV新款包包同步香港LV專櫃及LV官方網站,LV行業最好品質!

    awhso.net
  • YY分类目录YY分类目录

    YY分类目录全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.yydir.com