百度文心一言4.5发布,为何引发网络一片吐槽?
日前,百度发布文心一言大模型4.5和深度思考模型X1,且宣布免费,但让百度万没想到的是,文心新版本和新产品的推出及本该令人激动的免费策略,不但没有给百度带来预期中的掌声和欢呼,反而引发网友吐槽一片,为此,百度不得在官方微博中,开启了评论精选,屏蔽了所有负面议论,只有经过“精选”的评论才能发布。
不过尽管如此,也无法挡住网友要一吐为快的欲望。现在打开微博,只要与百度、文心一言、文心X1相关内容,下面无一例外都堆满了满含情感的不友好的文字,其中愤怒者有、鄙视者、嘲讽者有、失望者有、惋惜者也有。
归结网友吐槽的原因,固然与近期火爆全网,至今热度不减的百度副总裁谢广军有关,同时也与百度此前的作为和文心一言大模型自发布以来的平庸表现有关。
而针对此前百度董事长李彥宏在宣传中强调的“4.5是最强大的文心大模型”,网友“小李飞飞飞飞四刀”评论道:“最”字儿用多了特别容易“折”。网友“何处不自在” 表示:连自己都开始骗了,还要装作很相信的样子。
网友“此昵称不合法”则调侃道:只敢跟自己比了。
笔者的观点是就事论事,百度企业形象与品牌口碑就算有千般不好,也不影响它推出一两款好的产品,比如百度翻译,笔者一直在用,觉得很方便,翻译正确率还行。百度搜索也在用,不是说它多优秀,只是因为更优秀像谷歌咱也用不了。
而对于百度文心一言大模型,从发布之日起,笔者就对它的实际能力就心存疑虑。但凡有点水平,也不至于在发布会用PPT和提前录制好的视频来代替实操啊!毕竟大模型是要给人用的,不是活在PPT中的。
虽然后来,文心一言几次升级,笔者无一例外进行了试用,并对每次升级都满怀期待,但最后的结果无一例外是失望。
作为国产大模型的最先发布者,文心一言本来占据先发优势,拥有让其它国产大模型艳羡的站位,在这种情况下,只要它的性能与后期发布的其它国产大模型比肩,就已经拥有得天独厚的市场优势了,但就像中了魔咒,文心一言的每一个版本,在性能方面几乎都能被后来者完摧毁式碾压。
以此次发布的文心一言4.5为例,和文心一言此前版本相比,该版本的确在很多方面有了提升,也确如李彦宏所说:“4.5是最强大的文心大模型”.但这话的背后,同时也体现出了百度的信心不足,正如网友“此昵称不合法”、OverpenisForces、“太难取名了了了”等网友调侃的那样:“只敢跟自己比了” “更新了反而变弱反倒是要些本事”“如果比自己前代不强,可以开除了”。
实际上,和国内业已发布的其它大模型的最新版本相比,文心一言4.5在性能上依然乏善可陈,亮点暗淡。
数学是衡量一款大模型逻辑推理能力高低的最基本、最简单、同时也是最有效手段。通常来说,如果一款大模型的数学水平不行,也就代表该大模型的逻辑推理能力不行,整体性能堪忧。
那么,文心一言4.5在这方面的表现如何呢?
下面是文心一言4.5对三道题的解答,通过这一简单考试,我们或许会对其数学水平,乃至综合性能有个真实了解。
三道题全部来自“2024年重庆市高中数学联赛初赛试题”,难度系数较易,为填空题:
文心一言给出的答案:
文心一言给出的答案:
文心一言给出的答案:
三道全错,该大模型的真实性能可见一斑。
因此可见,即便抛去日前百度副总裁谢广军女儿开盒挂人事件、美女副总裁璩静“秒批”事件,和此前百度广告闹出的“魏则西”等事件对百度品牌造成的影响等因素,网友对文心一言4.5的抵触也并非空穴来风。