今天,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与

飞瑶看汽车啊 2025-10-15 14:03:46

今天,阿里通义千问团队推出其最强视觉语言模型系列 Qwen3-VL 的 4B 与 8B 版本。

这两个新版本模型,实现了以下关键目标:

1、资源门槛更低:尺寸缩减显著降低 VRAM 的占用。

现在,开发者可以在更广泛的硬件设备上部署和运行模型。

2、核心能力不减配:在缩减尺寸的同时,其完整保留了 Qwen3-VL 的全部核心功能。

3、基准性能优秀:在STEM、VQA、OCR、视频理解及 Agent 任务等多个权威基准上,其表现不仅超越了 Gemini 2.5 Flash Lite和GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型Qwen2.5-VL-72B 相媲美。

8B 版本在 30 项基准测评中拿到 SOTA(最佳成绩),超过了 Gemini 2.5 Flash Lite 和 GPT-5 Nano ,这个成绩还是相当炸裂的。

有意思的是,8B 版本在某些场景下还能跟半年前的 72B 旗舰版打个平手。

对比一下:参数量从 72B 压到 8B,这中间有近 10 倍的差距。

这一次比较有意思的是 4B 这个版本。

实际上,大多数开发者手里并没有那么多算力资源。

当一个 4B 模型能在 STEM、OCR、视频理解这些任务上跟顶级商业模型对打,这多少说明技术的普惠性开始落地了——让更多人用得起先进的多模态能力,这才是技术进步该有的样子。

0 阅读:0
飞瑶看汽车啊

飞瑶看汽车啊

感谢大家的关注