OpenAI：为什么ChatGPT容易编造！AI幻觉！ OpenAI发表

OpenAI：为什么ChatGPT容易编造！AI幻觉！ OpenAI发表了一篇新论文，确定了为什么ChatGPT容易编造。不幸的是，这个问题可能无法解决。 OpenAI的最新研究论文准确地诊断了为什么ChatGPT和其他大型语言模型可以编造东西。在人工智能领域被称为“幻觉”。这也揭示了为什么这个问题可能无法解决，至少对消费者来说是这样。这篇论文提供了迄今为止最严格的数学解释，解释了为什么这些模型自信地陈述了谎言。这表明，这些不仅仅是人工智能目前训练方式的不幸副作用，而且在数学上是不可避免的。这个问题部分可以用用于训练人工智能的基础数据中的错误来解释。但是，通过对人工智能系统如何学习的数学分析，研究人员证明，即使有完美的训练数据，这个问题仍然存在。语言模型对查询的反应方式——基于概率一次预测句子中的一个单词——自然会产生错误。事实上，研究人员表明，生成句子的总错误率至少是同一人工智能在简单的是/否问题上的错误率的两倍，因为错误可能会在多次预测中累积。换句话说，幻觉率从根本上受到人工智能系统区分有效和无效反应的能力的限制。由于这个分类问题对许多知识领域来说都是固有的困难，幻觉变得不可避免。研究还表明，模型在训练过程中看到的事实越少，当被问及此事时就越有可能产生幻觉。例如，对于名人的生日，研究发现，如果20%的名人的生日在训练数据中只出现一次，那么基础模型应该至少有20%的生日查询是错误的。更令人不安的是，为什么尽管经过训练后的努力，幻觉仍然存在，十个主要的人工智能基准，包括谷歌、OpenAI使用的基准，以及对人工智能模型进行排名的顶级排行榜。这表明，九个基准使用二元评分系统，对表达不确定性的人工智能给予零分。这造成了作者所说的惩罚诚实反应的“流行病”。当人工智能系统说“我不知道”时，它会得到与提供完全错误信息相同的分数。在这种评估下，最佳策略变得清晰起来：总是猜测，当评估使用二元评分时，猜测的预期得分总是超过弃权的得分。打破OpenAI提出的所有解决方案的解决方案是让人工智能在给出答案之前考虑自己对答案的信心，并在此基础上进行基准测试。例如，人工智能可能会被提示：“只有当你的信心超过75%时才能回答，因为错误会被罚3分，而正确答案会被罚1分。”OpenAI研究人员的数学框架表明，在适当的信心阈值下，人工智能系统自然会表达不确定性而不是猜测。所以这会减少幻觉。问题是它会对用户体验产生什么影响。考虑一下如果ChatGPT开始对30%的查询说“我不知道”的影响——这是基于该论文对训练数据中事实不确定性的分析得出的保守估计。习惯于收到几乎任何问题的自信答案的用户可能会迅速放弃此类系统。总之，幻觉将持续存在。需要技术的突破。ai误区 AI聊天GPT ai编造谣言 AI谣言

0 阅读：0