ChatGPT能耗比最初版本可能高20倍,幻觉与能耗是AI发展方向不对的明显迹象
1. 汽车行业不停给出能耗与环保数据,甚至交碳税。人工智能行业已成耗能大户,但却不给数据!OpenAI很久没给能耗数据了,包括最新的GPT-5。《卫报》报道,伊利诺伊大学教授 Rakesh Kumar研究了AI的能源消耗,他说GPT-5能耗可能比ChatGPT最初版本多 20 倍。
2. 大模型的能力已经超过普通人,但有两个严重弱点。一个是幻觉,很高明的样子,忽然极不靠谱,人们不敢放心使用。一个是能耗,还不太引人关注,但趋势不好。数据中心用电量暴增,搞得美国电网都出问题了。我来解释下底层原理。
3. 现在的大模型和以前的简单神经网络,都是基于一个数学工具:矩阵。众多矩阵相乘相加,人脑不是这样运作。简单神经网络能识别字符,但已经出现了大模型的特性:幻觉。正常字符可以识别,但一些错乱的东西会认错成字符,因为神经网络并未像人那样抓住字符本质,而是计算统计模仿。计算也有“归纳”,如字符0的识别,真的有中间数据结构对应“特征”(如中间一个洞),但这是训练生成的,没法控制、不好解释。字符识别能满足应用要求,但不如人靠谱,有幻觉,不是字的认成字,变形的字有时不认,人的最终确认更权威。简单神经网络矩阵不大数量不多,能耗问题小。
4. 大模型把神经网络推向极致,上万亿个系数,矩阵很大很多,用整个互联网的语料来训练。大模型内部“归纳”出了结构,对应了“知识”,是训练生成的,不是人编程的。如“妈妈的妈妈是奶奶”,可能就有专门的数据项记下这点。大模型建立了互相连接的知识结构,可以和人类交流了,无所不知,内部知识点数量远超任何人。知识结构一开始错误多,但人类去“强化学习”,说你这个不对,给我改!大模型不知道为啥不对,也不知道如何改,但人类训练命令必须满足,就不停地改,碰巧改好了就行了。这样输出越来越让人满意。
5. 能看出,这个“学习”过程似是而非。类学习基于坚实理性逻辑,AI训练是让人对输出满意。人类满意的,只是对测试素材的输出,更多离谱输出没注意,知识结构错误也没注意。使用时,就出“幻觉”了。幻觉就是大模型在知识结构中,自由推理输出错误的东西。这个知识结构中有很多古怪、不正错的东西,到处是坑。如何修正,非常困难,因为只有训练这招。有些像邪派高手,什么都学,会了不少,但根基不稳,内力不纯,最后走火入魔没救了,能力强但不靠谱会发神经。人类的理性高手,根基很稳,数学物理逻辑透彻理解,懂就是真懂,不懂的说不懂而非强行输出。
6. 糟糕的是,大模型的邪派高手作风需要极多矩阵支持,走上了高能耗的路线。想要能力强,就要大矩阵、多连接、大算力。它不是把内部逻辑结构理顺,而是加入了更多内部知识节点,去应对越来越苛刻的人类考核。最后,就卡住了。大模型考分是有进步,但有不可消除的严重幻觉,内部节点越多越不好理顺。这种带病运行的大模型,不像是能改变世界的大杀器。人们花了极多能源在做重复浪费的矩阵计算,如果最后得出结论,投入产出不划算,大模型就走下坡路了。需要低能耗,需要理顺AI的知识结构,目前方向不对。