2月26日 消息:抄袭检测器 Copyleaks 的一份报告显示,OpenAI 的 GPT-3.5输出中有60% 包含某种形式的抄袭。该公司使用了一种专有的评分方法,考虑相同的文本、微小的改动、释义等来分配“相似性分数”。
据悉,Copyleaks 专注于基于人工智能的文本分析,并为企业和学校提供抄袭检测工具。该公司早在 ChatGPT 之前就已经涉足这一领域。尽管 GPT-3.5是 ChatGPT 首次亮相的明星,但 OpenAI 此后已升级到更先进的 GPT-4。
根据他们的最新发现,GPT-3.5表现出45.7% 的相同文本、27.4% 的微小变化和46.5% 的释义文本。根据报告,0% 意味着完全原创,而100% 则表明没有原创内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
Copyleaks 对 GPT-3.5进行了各种测试,生成了大约1000个输出,每个输出大约400个单词,涉及26个主题。相似度得分最高的结果属于计算机科学(100%),其次是物理学(92%)和心理学(88%)。另一方面,戏剧(0.9%)、人文学科(2.8%)和英语(5.4%)的相似度得分最低。
OpenAI 发言人 Lindsey Held 告诉Axios:“我们的模型经过设计和训练来学习概念,以帮助他们解决新问题。”“我们制定了措施来限制无意的记忆,并且我们的使用条款禁止故意使用我们的模型来反省内容。”
剽窃不仅仅是剪切和粘贴整个句子和段落。《纽约时报》对 OpenAI提起诉讼,称 OpenAI 的 AI 系统“大规模复制”构成版权侵权。OpenAI对诉讼作出回应,称“反流”是一种“罕见的错误”,并指责《纽约时报》“操纵提示”。
内容创作者试图辩称,生成AI模型是在他们的作品上训练的,所以产出近似副本不应构成侵权。但目前相关法律裁决多支持公司而非创作者。纽约时报诉讼一案让人看到希望,但结果仍未明朗。