AI玩王者荣耀锻炼思考决策大模型开始打王者荣耀
让大语言模型(LLM)玩《王者荣耀》,能训练AI思考和决策能力?
训练输入是一段JSON格式的游戏状态,输出是一条“宏操作”(比如推塔、防守),再附一句解释。
就是靠着这种“边玩边学”的训练方式,让仅14B参数的Qwen-3-14B,超越了671B的Deepseek-R1,动作精准度高达90.91%!
AI玩王者荣耀锻炼思考决策大模型开始打王者荣耀
让大语言模型(LLM)玩《王者荣耀》,能训练AI思考和决策能力?
训练输入是一段JSON格式的游戏状态,输出是一条“宏操作”(比如推塔、防守),再附一句解释。
就是靠着这种“边玩边学”的训练方式,让仅14B参数的Qwen-3-14B,超越了671B的Deepseek-R1,动作精准度高达90.91%!
作者最新文章
热门分类
科技TOP
科技最新文章