百度深度推理大模型X1来了，为什么那么多人觉得“很失望”？

推荐 04-07 阅读：1 评论：0

日前，百度发布了思考大模型文心X1，说白了，就是当前很火的深度推理大模型，主打“长思维链”和超强逻辑能力。作为国产大模型的忠实用户，笔者第一时间体验了这款大模型。说实话，体验完，整个人都不好了。

正像网友Plus在体验完文心X1所说的：希望、失望！百度推理大模型没来的时候我盼着它来，希望它来，现在它来了，我的期待与希望却死了，剩下的只有失望。

网友“我的家在铁岭”也表示：以前觉得文心一言就够平庸了，现在和文心X1一比，才知道它有多优秀！

那么，文心X1的问题在哪儿呢，惹得众多网友不欢喜？就笔者连续几天的试用来看，文心X1的不足之处主要体现在三个地方。

一是“调用工具”看上去很新颖，实际上很噱头。

所谓调用工具，即指在文心X1中，大模型可以根据当前用户输入的内容，调用相关工具有针对性地处理。比如，如果用户传送的是图片，文心X1会调用图片工具，来识别和理解图片中内容。如果上传的是文档，文心X1会调用文档问答来阅读文档，这一功能看上去很新颖，很实用，同时也是百度官方在发布会重点宣传的功能之一。

百度在发布会上表示：文心大模型X1增加了多模态能力和多工具调用，能理解和生成图片，还能调用工具生成代码、图表等丰富内容。

实际上工具调用在业已发布的国产深度大模型中早已存在，只是它们很低调，没有将其作为一个亮点大肆宣传而已。

比如图片识别，在其它国产深度大模型中，只需用户将图片粘贴进对话框中，发送后大模型就会自动解读、回复。而识别文档和表格等，也只需将其作为附件上传即可。

这当中所有的识别过程均由后台完成，大模型完全不会打扰用户，告诉用户它调用了什么工具。

文心X1则不同，它将“调用工具”与文心X1分开了。用户如果想用其解释图片、文档等，必须手工启用“联网搜索”和“调用工具”功能，否则，默认情况下，它只支持文字输入，连粘贴操作都不允许。

文心X1的这一设计，看上去是增加了新功，实际上只是将简单的操作复杂化了。这就像我们到饭店吃饭，如果我们点一份红烧肉，但厨师只端上一盘未加任何调料的生猪肉，然后告诉你，要是想吃传统的红烧肉，你必须开启“做熟”、“加调料”功能，你不会不会觉得很奇葩？

文心X1需要用户启用才能调用其他工具的做法，与此类似。

二是假死情况太频繁。

和传统语言大模型相比，深度推理大模型最大的特点是具备“长思维链”，能够类人思考，因此在逻辑推理方面有着巨大优势，这一特点，在数学、代码和医学等领域表现得最明显。也因此，使得深度推理大模型有了解答高等数学和编写复杂代码的能力，而且准确率相较传统大模型也有了天翻地覆的进步。

正是基于此，许多非程序员用户喜欢用它来解决数学问题。

但如果你用过文心X1，你会发现它在解答数学题时有个几乎让人崩溃的习惯，那就是假死，在思考时，页面常常十几分钟甚至几十分钟没响应，让人弄不清它的大脑是仍在运转还是已经脑溢血。

解决办法有两个，首先是等，当然前提是你的耐性足够好，能够等到花都谢了仍不厌烦；其次是退出官网，重新进入后再次输入问题，虽然结果很可能是重蹈覆辙，再次重温假死大戏，但万一要是成了呢？

三是初中以上的数学题解答正确率不高。

这里说的初中以上的数学题，包括高中和大学数学题中难度水平一般和难度系数较大的题。文心X1解答这类题的正确率并不高，甚至有时会低得吓人。和国产其它深度推理大模型相比，尚有不小距离。

在业已发布的国产深度推理大模型中，笔者曾试用过两款，其数学解答正确率要远高于文心X1。而要证明这一点，只需在高中试卷中随便抽取几道解答题，让文心X1和其它几款国产推理大模型做一下就知道了。

功能方面无新意，体验方面时常假死，解题方面频繁出错，文心X1的令人失望，大约主要缘于这三点。