> 资讯 > 业界新闻

阿里通义千问更新 Qwen3-30B 非思考模型:AI 性能媲美 GPT-4o,推理、代码、数学等能力全面跃升

人阅读 2025-07-30 13:50:39
感谢网友 寒粥铺、软媒用户1369491 的线索投递!

7 月 30 日消息,阿里通义千问今天(7 月 30 日)在 X 平台发布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名为 Qwen3-30B-A3B-Instruct-2507。

新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力,官方表示在激活 3B 参数的情况下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。

援引官方博文内容,Qwen3-30B-A3B-Instruct-2507 模型的参数总量为 305 亿,但激活参数为 33 亿,非嵌入层数量为 299 亿,网络层数为 48 层,专家数为 128 个,激活专家数为 8 个,上下文长度原生支持 262144 个 tokens。

该模型仅支持非思考模式,在输出中不会生成 <think></think> 块。同时,不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多种语言的长尾知识覆盖,且在主观和开放式任务中与用户偏好更加一致,能够提供更有帮助的回答和更高质量的文本生成。


Deepseek-V3-0324 GPT-4o-0327 Gemini-2.5-Flash 非思考 Qwen3-235B-A22B 非思考 Qwen3-30B-A3B 非思考 Qwen3-30B-A3B-Instruct-2507
知识





MMLU-Pro 81.2 79.8 81.1 75.2 69.1 78.4
MMLU-Redux 90.4 91.3 90.6 89.2 84.1 89.3
GPQA 68.4 66.9 78.3 62.9 54.8 70.4
SuperGPQA 57.3 51.0 54.6 48.2 42.2 53.4
推理





AIME25 46.6 26.7 61.6 24.7 21.6 61.3
HMMT25 27.5 7.9 45.8 10.0 12.0 43.0
ZebraLogic 83.4 52.6 57.9 37.7 33.2 90.0
LiveBench 20241125 66.9 63.7 69.1 62.5 59.4 69.0
编程





LiveCodeBench v6 (25.02-25.05) 45.2 35.8 40.1 32.9 29.0 43.2
MultiPL-E 82.2 82.7 77.7 79.3 74.6 83.8
Aider-Polyglot 55.1 45.3 44.0 59.6 24.4 35.6
对齐





IFEval 82.3 83.9 84.3 83.2 83.7 84.7
Arena-Hard v2* 45.6 61.9 58.3 52.0 24.8 69.0
创意写作 v3 81.6 84.9 84.6 80.4 68.1 86.0
WritingBench 74.5 75.5 80.5 77.0 72.2 85.5
代理





BFCL-v3 64.7 66.5 66.1 68.0 58.6 65.1
TAU1-Retail 49.6 60.3# 65.2 65.2 38.3 59.1
TAU1-Airline 32.0 42.8# 48.0 32.0 18.0 40.0
TAU2-Retail 71.1 66.7# 64.3 64.9 31.6 57.0
TAU2-Airline 36.0 42.0# 42.5 36.0 18.0 38.0
TAU2-Telecom 34.0 29.8# 16.9 24.6 18.4 12.3
多语言





MultiIF 66.5 70.4 69.4 70.2 70.8 67.9
MMLU-ProX 75.8 76.2 78.3 73.2 65.1 72.0
INCLUDE 80.1 82.1 83.8 75.6 67.8 71.9
PolyMATH 32.2 25.5 41.9 27.0 23.3 43.1

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com