10月18日 消息:近年来,大规模语言模型(LLM)如ChatGPT和GPT-4已经引起了广泛的关注,因为它们在处理自然语言任务上表现出色,引发了人们对它们是否能够通过专业考试,如著名的特许金融分析师(CFA)考试的疑问。
一项由维吉尼亚理工大学、皇后大学和摩根大通研究人员进行的新研究对ChatGPT和GPT-4在模拟CFA一级和二级考试中的表现进行了测试,提供了关于LLMs在处理高级金融推理方面的见解。研究结果表明,这些模型在目前阶段存在一些限制。
CFA考试包括三个级别的考试,涵盖金融分析、投资组合管理、会计和经济等领域的知识。这些考试以严格测试实际金融知识和推理能力而著称,通常需要2-5年的时间才能通过。每个级别的通过率约在40-50%左右。
研究中,研究人员将ChatGPT和GPT-4分别测试在零提示、少提示和思维链提示情况下,以返回多项选择题的结构化答案。他们使用模拟考试题,因为CFA协会对真实考试题有一定的限制。
总的来说,研究发现:
- GPT-4在各种情境下的表现始终优于ChatGPT,说明它是更高级的LLM。
- 两个模型在二级考试中遇到的困难明显大于一级考试。
- 少提示情境明显提高了ChatGPT的准确性,而思维链提示则稍微提高了准确性,同时暴露了知识差距。
- 根据估算的CFA及格分数,只有GPT-4可能在少提示情境下通过考试。
这些结果突显了LLMs在处理CFA考试所需的领域知识和推理方面的当前限制。然而,少提示情境的提升表明它们有能力获取新的金融专业知识。
要在金融领域继续提高LLMs的性能,可能需要有针对性地培训它们,使其掌握金融概念、公式和推理技巧。然而,要通过CFA考试可能还有一段距离要走。