百度深度推理大模型X1来了,为什么那么多人觉得“很失望”?

推荐 04-07 阅读:1 评论:0

日前,百度发布了思考大模型文心X1,说白了,就是当前很火的深度推理大模型,主打“长思维链”和超强逻辑能力。作为国产大模型的忠实用户,笔者第一时间体验了这款大模型。说实话,体验完,整个人都不好了。

正像网友Plus在体验完文心X1所说的:希望、失望!百度推理大模型没来的时候我盼着它来,希望它来,现在它来了,我的期待与希望却死了,剩下的只有失望。

网友“我的家在铁岭”也表示:以前觉得文心一言就够平庸了,现在和文心X1一比,才知道它有多优秀!

那么,文心X1的问题在哪儿呢,惹得众多网友不欢喜?就笔者连续几天的试用来看,文心X1的不足之处主要体现在三个地方。

一是“调用工具”看上去很新颖,实际上很噱头。

所谓调用工具,即指在文心X1中,大模型可以根据当前用户输入的内容,调用相关工具有针对性地处理。比如,如果用户传送的是图片,文心X1会调用 图片工具,来识别和理解图片中内容。如果上传的是文档,文心X1会调用文档问答来阅读文档,这一功能看上去很新颖,很实用,同时也是百度官方在发布会重点宣传的功能之一。

百度在发布会上表示:文心大模型X1增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。

实际上工具调用在业已发布的国产深度大模型中早已存在,只是它们很低调,没有将其作为一个亮点大肆宣传而已。

比如图片识别,在其它国产深度大模型中,只需用户将图片粘贴进对话框中,发送后大模型就会自动解读、回复。而识别文档和表格等,也只需将其作为附件上传即可。

这当中所有的识别过程均由后台完成,大模型完全不会打扰用户,告诉用户它调用了什么工具。

文心X1则不同,它将“调用工具”与文心X1分开了。用户如果想用其解释图片、文档等,必须手工启用“联网搜索”和“调用工具”功能,否则,默认情况下,它只支持文字输入,连粘贴操作都不允许。

文心X1的这一设计,看上去是增加了新功,实际上只是将简单的操作复杂化了。这就像我们到饭店吃饭,如果我们点一份红烧肉,但厨师只端上一盘未加任何调料的生猪肉,然后告诉你,要是想吃传统的红烧肉,你必须开启“做熟”、“加调料”功能,你不会不会觉得很奇葩?

文心X1需要用户启用才能调用其他工具的做法,与此类似。

二是假死情况太频繁。

和传统语言大模型相比,深度推理大模型最大的特点是具备“长思维链”,能够类人思考,因此在逻辑推理方面有着巨大优势,这一特点,在数学、代码和医学等领域表现得最明显。也因此,使得深度推理大模型有了解答高等数学和编写复杂代码的能力,而且准确率相较传统大模型也有了天翻地覆的进步。

正是基于此,许多非程序员用户喜欢用它来解决数学问题。

但如果你用过文心X1,你会发现它在解答数学题时有个几乎让人崩溃的习惯,那就是假死,在思考时,页面常常十几分钟甚至几十分钟没响应,让人弄不清它的大脑是仍在运转还是已经脑溢血。

解决办法有两个,首先是等,当然前提是你的耐性足够好,能够等到花都谢了仍不厌烦;其次是退出官网,重新进入后再次输入问题,虽然结果很可能是重蹈覆辙,再次重温假死大戏,但万一要是成了呢?

三是初中以上的数学题解答正确率不高。

这里说的初中以上的数学题,包括高中和大学数学题中难度水平一般和难度系数较大的题。文心X1解答这类题的正确率并不高,甚至有时会低得吓人。和国产其它深度推理大模型相比,尚有不小距离。

在业已发布的国产深度推理大模型中,笔者曾试用过两款,其数学解答正确率要远高于文心X1。而要证明这一点,只需在高中试卷中随便抽取几道解答题,让文心X1和其它几款国产推理大模型做一下就知道了。

功能方面无新意,体验方面时常假死,解题方面频繁出错,文心X1的令人失望,大约主要缘于这三点。

网友评论