您好!欢迎来到99网站目录! 提交网站流程-> 注册会员 -> 提交网站 -> 等待审核...
数据统计:157个主题分类,52481个优秀站点,1732个站点正在排队审核,4577篇站长资讯
【通知】 本站经过两年的运营,得到了广大站长的支持与帮助,现对网站进行前台部分修复与改版,希望大家多提宝贵意见(2019-11-21)。

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4(转录出错会导致基因突变吗)

来源:网络 浏览:36次 时间:2024-04-07

4月7日 消息:近日,《华尔街日报》报道称,人工智能公司在收集高质量训练数据方面遇到了困难。随后,《纽约时报》详细介绍了一些公司处理这一问题的方法,其中涉及到了人工智能版权法的模糊灰色区域。

故事从OpenAI开始。该公司迫切需要训练数据,据报道开发了Whisper音频转录模型,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。《纽约时报》报道称,OpenAI知道这在法律上存在问题,但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。

youtube 油管

OpenAI发言人林赛·赫尔德告诉The Verge,该公司为每个模型策划了"独特"的数据集,并使用"众多来源,包括公开数据和非公开数据的合作伙伴"。赫尔德还表示,该公司正在考虑生成自己的合成数据。

据《纽约时报》消息人士透露,谷歌也从YouTube收集了文字记录。谷歌发言人马特·布莱恩特表示,该公司"根据我们与YouTube创作者的协议,在一些YouTube内容上训练了模型"。

Meta同样也遇到了良好训练数据可用性的限制。该公司在努力追赶OpenAI的过程中,曾考虑未经许可使用版权作品的情况,包括支付图书许可费用或直接收购一家大型出版商。

这些公司正在努力应对模型训练数据快速蒸发的问题。《华尔街日报》本周撰文称,到2028年,公司可能会超越新内容。解决方案包括对模型创建的"合成"数据进行训练,或采用"课程学习"方法。但这些公司的另一个选择是使用他们能找到的任何东西,无论他们是否获得许可,这可能会引发版权法方面的担忧。

推荐站点

  • 分类目录网分类目录网

    爱网站 - 是国内第一个专注于推广优秀网站的开放式网站,具有分类目录及资讯发布平台,收录国内外各行业优秀网站,以为站长和网站提供服务为己任,有优秀网站目录为参考,还有网站优化推广及互联网资讯服务。

    www.awz.cc
  • 77分类目录77分类目录

    77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站!

    www.77dir.com
  • 零目录零目录

    零目录(www.dir0.com)专业的网站分类目录平台!为您提供网站分类目录索引及网址大全库的建立,是目前较为专业的网站分类目录平台,为用户打造大型正规分类目录网,提供高效便捷的网址存储和查询服务的分类目录网站。

    www.dir0.com
  • 99网站目录99网站目录

    99网站目录采用全人工编辑的开放式网站分类目录,99网站大全免费收录国内外、各行业优秀网站网址,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.99dir.com
  • 高仿包高仿包

    竭誠精品-高仿世界名牌包包專賣網主營高仿LV包,高仿GUCCI古奇包,高仿HERMES愛馬仕,高仿CHANEL香奈兒,高仿PRADA,高仿巴黎世家等國際高仿包包、1比1高仿女包、高仿包、精仿奢侈品、世界名包、皮帶、皮具、手表、飾品等。LV新款包包同步香港LV專櫃及LV官方網站,LV行業最好品質!

    awhso.net
  • YY分类目录YY分类目录

    YY分类目录全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.yydir.com