360道推理难题难倒AI大模型 AI图像编辑评测标准大升级图像编辑AI的理解力

360道推理难题难倒AI大模型 AI图像编辑评测标准大升级

图像编辑AI的理解力还远没及格。

最近，上海AI实验室联手多所高校推出新基准——RISEBench，专测图像编辑模型的“推理能力”。这套评测由360道高质量测试构成，题目涵盖时间、因果、空间、逻辑四类推理场景，不再是“换个颜色”那么简单，而是真刀真枪考AI是否“懂图像背后的逻辑”。

比如输入草地+枯叶+放大镜，AI需要画出“夏天30秒后的场景”。听着像小儿科，但实测显示：就连最强的GPT-4o-Image也只拿下28.9%的完成率。开源模型就更惨，完成率几乎为零。

RISEBench不仅题难，还引入自动评估体系：从“指令理解”“外观一致性”和“视觉合理性”三方面打分，满分才算任务完成。GPT-4o虽然表现最好，但也暴露出AI在复杂视觉理解上的巨大短板。

HTK新闻网