华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
9 月 29 日消息,今晚,DeepSeek-V3.2-Exp 发布并开源,引入稀疏 Attention 架构。华为宣布昇腾已快速基于 vLLM/SGLang 等推理框架完成适配部署,实现 DeepSeek-V3.2-Exp 0day 支持,并面向开发者开源所有推理代码和算子实现。
从官方介绍获悉,昇腾在 DeepSeek-V3.2-Exp 一发布开源即实现了 DeepSeek-V3.2-Exp BF16 模型部署,并在 CANN 平台上完成对应的优化适配,整体部署策略沿用 DeepSeek 的大 EP 并行方案,针对稀疏 DSA 结构,叠加实现长序列亲和的 CP 并行策略,兼顾时延和吞吐,在 128K 长序列下能够保持 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。
NPU DeepSeek-V3.2-Exp 推理优化实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
昇腾针对 DeepSeek-V3.2-Exp 架构中两个全新的算子:Lightning Indexer (LI) 以及 Sparse Flash Attention (SFA),针对性地进行算子 Tiling 设计、Cube 核与 Vector 核间的流水优化、计算流程的实现优化等,模型和融合 Kernel 均已开源。
NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
为进一步提高昇腾融合算子的编程易用性,昇腾 CANN 首次推出大融合算子的编程体系 PyPTO,旨在简化算子开发流程,同时保持高性能计算能力。该框架创新性地采用 PTO (Parallel Tensor / Tile Operation) 编程范式,以 Tensor 为基本数据表达方式,构建计算图,实现高效计算与优化。目前在昇腾上已经基于 PyPTO 完成 DeepSeek-V3.2-Exp 模型中 DeepSeek Indexer Attention 和 Lightning indexer 算子的开发实践,仅需几百行代码即可完成动态 Shape 算子编程和算子整网运行。
基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
昇腾不仅提供了 DeepSeek-V3.2-Exp 的官方参考实践,也同步支持 vLLM 和 SGLang 等业界主流大模型推理框架部署,提供完整功能,能够让广泛的开发者在社区直接下载相关代码体验 DeepSeek-V3.2-Exp 模型,可以在昇腾实现融合算子、稀疏访存、多核并行计算等深度优化能力,并持续优化 DeepSeek-V3.2-Exp 在主流社区的推理性能。
大模型推理框架 vLLM 及昇腾实现:
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架 SGLang 及昇腾实现:
https://github.com/sgl-project/sglang/issues/11060
TileLang 是由 Tile-AI 社区发起的 Tile-level 的类 Python 的 AI 编程语言(DSL)项目,在 Tile 粒度上进行编程和编译,实现模型算子和硬件的高效协同。昇腾已经实现 TileLang 的 Sparse Flash Attention 和 Lightning Indexer 算子开发,后续将支持更完备的 NPU 算子并提升性能和泛化性。
NPU DeepSeek-V3.2-Exp TileLang 算子开发实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
TileLang-Ascend 开源社区:
https://github.com/tile-ai/tilelang-ascend
昇腾凭借敏捷协同优化能力,0Day 高效完成 DeepSeek-V3.2-Exp 适配,不仅深度开放自研编程语言 AscendC 及 PyTorch 算子源码,也积极拥抱开源生态,同步实现 vLLM、SGLang 等主流框架的快速支持,并携手开源社区 Tile-AI 共同开源 NPU 编程项目 TileLang-Ascend。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。