HTK新闻网

360道推理难题难倒AI大模型 AI图像编辑评测标准大升级 图像编辑AI的理解力

360道推理难题难倒AI大模型 AI图像编辑评测标准大升级

图像编辑AI的理解力还远没及格。

最近,上海AI实验室联手多所高校推出新基准——RISEBench,专测图像编辑模型的“推理能力”。这套评测由360道高质量测试构成,题目涵盖时间、因果、空间、逻辑四类推理场景,不再是“换个颜色”那么简单,而是真刀真枪考AI是否“懂图像背后的逻辑”。

比如输入草地+枯叶+放大镜,AI需要画出“夏天30秒后的场景”。听着像小儿科,但实测显示:就连最强的GPT-4o-Image也只拿下28.9%的完成率。开源模型就更惨,完成率几乎为零。

RISEBench不仅题难,还引入自动评估体系:从“指令理解”“外观一致性”和“视觉合理性”三方面打分,满分才算任务完成。GPT-4o虽然表现最好,但也暴露出AI在复杂视觉理解上的巨大短板。