9月29日,DeepSeek正式发布实验性大模型DeepSeek-V3.2-Exp并全面开源,以技术创新突破效率与成本瓶颈,引发行业关注。该模型已同步上线Hugging Face与魔搭社区,技术报告及TileLang、CUDA双版本GPU算子也随开源公布,为开发者提供全栈工具支持。 核心升级在于全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制。通过闪电索引器与细粒度token选择机制,模型可精准筛选关键信息,将Transformer注意力计算复杂度从O(L)降至O(Lk),在128K长文本场景下推理成本显著降低,同时保持核心性能稳定。评测显示,其在MMLU-Pro保持85.0分,数学推理AIME 2025、编程Codeforces等任务得分较前代还有小幅提升。 生态适配与成本优化成为亮点。华为、寒武纪等芯片厂商已完成适配,华为云等平台同步上线服务,模型最大支持160K上下文长度,可高效处理长篇文档、代码库等场景。API调用成本同步降低超50%,输出价格低至3元/百万tokens,大幅降低开发者与企业使用门槛。 目前,DeepSeek App、网页端及小程序均已更新该模型,且临时保留旧版API接口供对比验证。此次发布通过算法创新实现“性能不降、成本减半”,为长文本处理等场景提供高性价比解决方案,开源举措更助力AI技术生态协同发展。
9月29日,DeepSeek正式发布实验性大模型DeepSeek-V3.2-Ex
溪边闲适的鱼
2025-09-30 16:29:17
0
阅读:0