11月23日 消息:近期报道揭示了OpenAI正在进行的秘密研究项目,名为 Q*,这被认为是迈向通用人工智能(AGI)的一项重大进步。该项目由OpenAI的首席科学家Ilya Sutskevar以及其他杰出的研究人员,如Jakub Pachocki和Szymon Sidor共同创建。
图源备注:图片由AI生成,图片授权服务商Midjourney
Q*的出现引发了人工智能领域的热议,一些人认为这可能是实现AGI的关键一步。然而,随着该项目的进展速度加快,一些人工智能安全研究人员表达了担忧。据报道,最近在OpenAI内部流传的Q*演示引发了关于人工智能安全性的讨论,特别是在AGI的路径上。
什么是Q-learning
专家认为,Q* 建立在Q-learning的原理之上,Q-learning 是人工智能领域的基本概念,特别是强化学习领域。Q-learning 的算法被归类为无模型强化学习,旨在理解特定状态下动作的价值。
Q-learning的最终目标是找到一个最优策略,定义在每个状态下采取的最佳行动,从而随着时间的推移最大化累积奖励。
Q 学习基于 Q 函数的概念,即状态-动作值函数。该函数使用两个输入进行操作:状态和动作。它返回对预期总奖励的估计,从该状态开始,同时采取该行动,然后遵循最优策略。
在简单的实例中,Q-learning 维护一个表(称为 Q 表),其中每行代表一个状态,每列代表一个动作。该表中的条目是 Q 值,随着代理通过探索和利用进行学习而更新。
Q*的出现是在OpenAI的背景下,而OpenAI的Andrej Karpathy最近在X上的发帖中提到了他对集中化和去中心化之间权衡的思考。他强调了在构建人工智能系统时需要平衡决策和信息的集中化与分散化,而Q-learning似乎是实现这一平衡的理想选择。
OpenAI的Q*项目不仅在技术上是一次突破,更引发了对人工智能安全性和发展方向的深刻思考。这一秘密研究的进展离通用人工智能的实现又更近了一步。