解锁任意模态 AI 模型训练，字节跳动 Seed 开源 VeOmni 框架

人阅读 2025-08-14 17:58:34

8 月 14 日消息，字节跳动 Seed 团队今日发布并开源了全模态 PyTorch 原生训练框架 ——VeOmni。

近年来，大模型技术正从单一文本模态，向包含图像、语音、视频等多种信息的“全模态”（Omni-Modal）理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型，依然面临着系统性的工程挑战。

字节跳动介绍称，VeOmni 采用以模型为中心的分布式训练方案，可将复杂的分布式并行逻辑与模型计算解耦，让研究员像搭积木一样，为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销，提升训练效率和扩展性，将数周的工程开发时间缩短至几天。

此前，使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型，往往需要一周以上进行工程研发，以及更长时间推进分布式优化和精度对齐，且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建，开启训练任务，工程耗时可压缩 90% 以上。

实验结果表明，基于 VeOmni 框架，一个 300 亿参数的全模态 MoE 模型（支持文本、语音、图片、视频的理解和生成），在 128 张卡上训练吞吐量可超过 2800 tokens / sec / GPU，并能轻松扩展至 160K 超长上下文序列。

目前，VeOmni 的相关论文和代码仓库均已对外公开，GitHub Star 数超过 500。附开源地址：

arXiv：https://arxiv.org/pdf/2508.02317
GitHub：https://github.com/ByteDance-Seed/VeOmni

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

大数据

5G

LoRa

NB-IoT

ML/机器学习

区块链

云计算

雾计算

机器人

边缘计算

智能家居

智能安防

智能工业

智能医疗

智能农业

智慧城市

智能交通

智能环保

车联网

移动互联

业界新闻

企业要闻

产业政策

AI智能

解锁任意模态 AI 模型训练，字节跳动 Seed 开源 VeOmni 框架

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

解锁任意模态 AI 模型训练，字节跳动 Seed 开源 VeOmni 框架

热门推荐

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

Powered By LOT物联网闽ICP备2024036174号-1