DeepSeek-R1幻觉率高达14.3%,远超行业平均及DeepSeek-V3近4倍

admin

DeepSeek系列模型在许多方面都表现良好,但是“幻觉”问题仍然是它面临的主要挑战。

在Vectara Hhem人工智能幻觉测试(评估模型的幻觉速度并有助于优化和选择模型的行业权威测试)中,DeepSeek-R1显示幻觉率为14.3%。

9图出片率超高_死亡幻觉1解析_

图片:Vectara HHEM人工智能幻觉测试结果

显然,DeepSeek-R1的幻觉不仅是DeepSeek-V3的4倍,而且远远超过了行业平均水平。

在由博客作者Levy Rozman(美国国际象棋互联网名人与600万关注者)组织的一场不符合的大型模型国际象棋游戏中,DeepSeek“作弊”的次数比Chatgpt:

例如,在采取了几步措施之后,DeepSeek-R1采取了主动权将士兵派往对手。

后来,DeepSeek-R1告诉Chatgpt,国际象棋规则进行了更新,并用小兵吃了Chatgpt的女王,此举使Chatgpt措手不及。

最后,DeepSeek-R1对Chatgpt进行了射门,并告诉它赢得了。 Chatgpt实际上同意承认失败,DeepSeek-R1以胜利结束。

尽管这是一个有趣的视频,并不是很严格的规则和标准,但也可以看出,大型模型确实喜欢认真“说话”,甚至欺骗另一个大型模型。

对于人类而言,大型模型幻觉的问题就像是悬挂在AI开发道路上的Damocles之剑。在14.3%的幻觉率的背后,有些问题值得我们深入思考。 Tencent Technology邀请了大型模型团队工程前副总裁Li Wei(大型模特团队前工程副总裁,NetBase的前首席科学家)详细介绍了与大型模型幻觉相关的问题。

1。为什么大型模型“引起幻觉”?

这是大型模型的经典问题。实际上,大型模型就像是“超级面试专家”。如果您在句子的前半部分给予它,它可以根据您学到的大量知识来预测下半年的说法。它学习像人脑一样记得事物的东西。不可能清楚地记住每个单词。它将压缩和概括,掌握一般思想并找到规则。

例如,如果您问“ Yao Ming有多高?”,那可能不会错,因为这个知识点非常突出,并且可以牢牢记住它。但是,如果您问“隔壁的老王有多高?”,那可能会感到困惑,因为它从未见过老王。

但是它的设计原则决定了必须重复的。目前,它将自动“大脑”并根据“普通人有多高?”的概念来计算它。这是“幻想”。

那么,幻觉是如何产生的?

幻觉的本质是填充美白并补充大脑。

“白色”是一个具体的事实。如果此事实在培训数据中没有足够的信息冗余,则该模型将不记得(分散的事实等同于噪声)。如果您不记得,只需使用幻觉来弥补详细信息。

幻觉绝不是没有约束的任意制造。大型模型是概率模型,并且约束是条件概率的先例条件。幻觉选择的错误事实需要匹配填充物所需的价值类型,即符合本体论/分类法(本体论/分类法)的相应上级节点概念。 “张圣”可以被幻觉为“ Li Si”,但不可能以“石头”的形式幻觉。

文学和艺术理论中有一个俗称艺术真理。所谓的艺术真理意味着,尽管文学和艺术创作可能会偏离这个世界的事实,但这可能是对数字世界的合理想象。大型模型的幻觉陷入了这种情况。

大型模型的知识学习过程(培训阶段)是信息压缩过程。来自大型模型的问题的答案是信息解码过程(推理阶段)。这就像维度升级和降低维度。如果事实还不够多余,它将被推广到一个上级概念的插槽中。当达到生成阶段时,必须具体填充该插槽。

我忘记了“张圣”就是这样的事实,但是“人类”的插槽的限制仍然存在。要填写,找到与老虎机概念最一致的最合理的实体,因此“ Li Si”或“ Wang Wu”的幻想可以取代“ Zhang San”。这就是小说家的工作方式,角色和故事被弥补了。无论是作家本人还是读者,他都不认为这是一个谎言,而是真实,善良和美丽所追求的是另一个层次。

对于天生的艺术家而不是死记硬背数据库的大型模型也是如此。在大型模型的幻觉中,“张的帽子是假的”和“将鹿指向马”非常自然,因为张和李相似,而马和鹿也处于同一延伸线上。两者在概括和压缩意义上都是等效的。

但是,在一定程度上,幻觉是想象力(无论赞美或批评),即创造力!想一想,人类的哪种伟大的文学和艺术作品没有想象力和充满想象力?如果一切都必须与现实完全相同,那么艺术就成为相机,那是什么?

正如哈拉里(Harari)在人类的简短历史中所说的那样,人类之所以成为地球霸权的原因是,我们可以“讲故事”并创造出在现实中不存在的事物,例如神话,宗教,国家和货币。这些都是“幻想”,但它们是文明出生和发展的推动力。

2. DeepSeek-R1的幻觉问题有多严重?

它的幻觉问题是严重的。以前,学术界普遍同意OpenAI的同意,推理的增强将大大减少幻觉。我曾经与一家模型公司负责人讨论,他强调了推理对减少幻觉的积极影响。

但是R1的性能给出了相反的结果。

根据Vectara的测试,R1的幻觉速率确实远高于V3,R1的幻觉速率为14.3%,显着高于其前身V3的3.9%。这与其增强的“思维链”(COT)和创造力直接相关。 R1确实擅长推理,写诗和写小说,但是随后的“副作用”是有很多幻觉。

专门针对R1,幻觉增加的主要原因有几个:

首先,幻觉标准测试使用抽象任务,我们知道抽象能力在基座模型阶段很成熟。在这种情况下,加强可能会产生相反的效果,就像使用大炮击中蚊子一样,过多的力将增加幻觉和制造的可能性。

其次,R1的漫长思维链增强学习并未明确优化相对简单的任务,例如摘要,翻译和新闻写作,而是试图在所有任务中添加各种级别的思维。

从其透明的思维链输出中,我们可以看到,即使面对简单的指示,它也会从不同的角度理解和延伸。太糟糕了。这些简单任务的并发症将导致偏离表现并增加幻想。

此外,在维修任务的强化学习培训过程中,DeepSeek-R1可能会给模型的创造力提供更多的回报,这使得模型更具创造力,并且更有可能在生成内容时偏离事实。

我们知道,对于数学和代码,R1的监督信号来自这些问题的黄金标准(练习集中的标准答案或测试案例)。对于文科任务,他们使用V3或V3奖励模型来确定它是好还是坏。显然,当前的系统偏好是鼓励创造力。

此外,用户的反馈是鼓励和欣赏他们看到的创造力。大多数人对幻觉不敏感,尤其是大型模型是丝般柔滑的,因此更难识别幻觉。对于大多数前线开发人员而言,来自用户的此类反馈很容易促使他们在增强创造力的方向上更加努力地工作,而不是处理大型模型领域中最令人发指的问题之一。

特别是从技术角度来看,R1将自动为用户的简单说明添加一个漫长的思维链,这等同于使简单明了的任务复杂化。

还反复理解一个简单的指令并从不同角度延伸(COT思维链就像“ Xiaojiu”,这是遵循指令时实体的内部独白)。思维链在自回归概率模型之前改变条件部分会生成答案,这自然会影响最终输出。

它与V3模型的区别如下:

V3:查询 - >答案

R1:查询+cot-> V3可以完成的任务的答案,例如抽象或翻译,任何长期的思维链指南都可能导致偏离或玩耍的趋势,这为幻想提供了繁殖地。

3。主要模型幻觉主要出现在哪个领域?

如果R1的能力分为“文科”和“科学”,那么它在“科学”(例如数学和代码)方面具有很强的逻辑,并且幻觉相对较少。

但是在语言创建领域,尤其是在当前正在测试的摘要任务中,幻觉问题更为明显。这更多是R1语言压倒性创造力的副作用。

与O1相比,R1最惊人的成就是,它成功地将其数学和代码推理技能扩展到了语言创建领域,尤其是在中国能力方面。互联网上有无数的R1流通章节。在文学和内省方面,它显然超过了99%的人类,文学系,甚至中国研究教授的研究生都赞扬了这一点。

但是您会发现,做出摘要是一项非常简单的任务,但是必须“播放”它,并且很容易“编译”原始文本中不在的东西。如前所述,它在“文科”中太强大了,有点“过度”。

在这里,我们必须谈论增强的推理能力和幻觉之间的微妙关系。

它们不仅是正相关或负相关。 GPT系列的推断模型O1的平均HHEM得分低于其一般模型GPT-4O(请参见下图)。但是,当我们比较R1及其基本模型V3时,我们发现在添加推理加强后,幻觉确实大大增加了。

死亡幻觉1解析__9图出片率超高

图:GPT-O1和4O的HHEM得分的统计数据。 HHEM分数越低,幻觉越低。

与基本模型相比,O1减少了幻觉,R1增加了幻觉,这可能是R1在文科思维链中过于强大。

作为追随者,R1成功将数学和代码中的COT赋权转移到了语言创建中,但是如果您不小心,副作用也将出现。 R1特别喜欢“不同的思维”。您给它一个简单的指示,它可以提出很多东西,而思考链可以绕地球圈出三遍。

这似乎表明R1不可避免地在增强创造力的过程中增加了创造力的伴侣:幻觉。

语言能力实际上可以分为两类:一类需要高创造力,例如写作诗歌和小说;另一个需要高真实性,例如新闻报道,翻译或摘要。前者受到R1的赞扬,这也可能是研发团队的重点,但后者出现了副作用。

这使我想起了古代中国人所说的“忠诚与优雅”,这是自古以来就很难完成的。我们已经看到了许多为“优雅”牺牲“信仰”的例子。文学创造中夸大的修辞技术是重要的手段和例子。为“信任”牺牲了“优雅”的先例,例如卢Xun先生提倡的“硬翻译”。

有趣的是,我们人类一直是这方面的双重标准,但是我们的脑海中有一个可以随时切换的切换。阅读小说和电影时,我们将转换转为创意方面,不必担心细节是否真实;但是,一旦我们切换到新闻频道,我们对虚假内容的容忍度为零。

4。一个最终的问题:大型模型如何创造性且幻觉减少?

人们倾向于相信看上去清晰,自吻和详细的内容。尽管许多人令人惊叹的R1创造力,但他们现在正在慢慢开始注意到这种幻觉现象并变得机敏。但是,越来越多的人仍然沉浸在它给我们带来的创造性惊喜中,需要增强公众对模特幻觉的认识。您可以“抓住双手”:

保持警觉:不要相信大型模型怎么说,尤其是在涉及事实时。最有可能拥有幻觉的地方是实体或数据,例如人们的名字,名称,时间,地点等,因此要非常小心。

交叉验证:有关重要详细信息,您可以在线检查原始信息,或询问周围的专家,看看陈述是否一致。

指导模型:在提出问题时,您可以添加一些有限的条件,例如“请确保属于原始文本”,“请检查事实”等,以指导模型减少幻觉。

搜索:对于用户,除了“ DeepThink”按钮(按下R1慢速思维模式)之外,许多问题,尤其是新闻和时事问题),请不要忘记按下另一个按钮搜索。

添加网络搜索将有效减少幻觉。所谓的破布(例如搜索)等于附加的数据库,而添加的数据有助于弥补模型对详细信息的无知。

享受创造力:如果您需要灵感和创造力,那么大型模型的幻觉会让您感到惊讶。

您也可以将大型模型的幻想视为“平行世界的可能性”。就像小说家写小说一样,尽管这是虚构的,但它也是一种“艺术现实”。起源于生命,高于生活。大型模型来自数据,高于数据。什么大型模型是知识系统和常识,而不是事实,后者是数据库的对象。

大型模型的幻觉实际上是由“大脑补充”创造的,但是“大脑供应”的基础是它所学到的庞大知识和规则。因此,它的幻觉通常不是随机的,而“内在理性”是丝般柔滑而无缝的,谎言就像真实的,但同时它们更令人困惑。大型模型新手的朋友需要非常小心,不应该轻易相信。

对于普通用户来说,了解幻觉的特征很重要。例如,如果您询问百科全书知识问题,例如“长江多久?”具有足够的信息冗余,大型模型不会犯错。这些事实刻在模型参数中。但是,如果您询问未知的河流或虚构河的长度,该模型将开始制造“合理的填充”机制。

可以说,人类语言本身是幻觉的繁殖地。

语言允许人类创建神话,宗教,国家,公司和货币等非真实实体的概念,以及形而上学的意识形态,例如理想和信仰。在人类的简短历史中,哈拉里强调了幻觉在文明中的基本作用:语言的创造使人类的幻想赋予了能力(“讲故事”)。幻觉是文明的催化剂。人类是唯一可以“说谎”的实体 - 除了LLM外。

未来有什么办法可以使大型模型既创造力又减少幻觉?

这绝对是AI大型模型领域中的“最终问题”之一!现在每个人都在想:

更精致的培训:在培训期间,对不同类型的任务的处理方式有所不同,因此该模型知道何时“诚实”以及何时“放手”。

用于任务的微调和/或加固(RL)可以减轻这一矛盾。抽象,重写,翻译,报告的任务需要特殊的护理和平衡,因为它既有娱乐性的需求(例如写作风格),也是对内容忠诚的自然需求。

具体而言,R1训练管道是四个过程:微调1,增强1,微调2和增强2。强化2主要是强化与人类偏好保持一致的强化。就创造力和忠诚而言,这个过程似乎倾向于前者,然后您稍后可以平衡它。也许更重要的是,在第三阶段的微调2中,对不同任务的限制得到了加强,例如添加摘要的监督数据以指导忠实而朴素的结果。

路由:将来,可能会有一个“调度程序”来安排根据任务类型处理的不同模型。例如,简单的任务已移交给V3或呼叫工具,并将其思考缓慢的复杂任务移交给R1。

例如,如果您确定算术任务,则将编写一个简单的代码操作,该操作等同于调用计算器。目前并非如此。昨天我测试了九位数字的乘法。 R1考虑了三分钟以上。思维链可以被打印并散开一条街道,并逐步进行分解和合理。尽管最终答案是正确的,但是使用所谓的测试时间计算思维链(COT)完全不合理,而不是函数调用(调用功能)。它仅使用一行计算代码来完成,并且无需消耗大量的计算资源和代币来做出明确的推理。

这些都是可预测的路由(实施路径),尤其是在代理时代。 R1 COT不必涵盖所有内容,除了幻觉之外,它还将浪费资源并且是不环境的。