字节跳动推出豆包大模型 1.6、图像编辑模型 3.0、同声传译模型 2.0，发布企业自有模型托管方案、Responses API 等

人阅读 2025-07-30 13:50:55字节跳动

感谢网友西窗旧事的线索投递！

7 月 30 日消息，今天，在 FORCE Link AI 创新巡展・厦门站，字节跳动火山引擎发布豆包・图像编辑模型 3.0、豆包・同声传译模型 2.0，豆包大模型 1.6 系列全新升级，并宣布开源扣子核心能力，发布企业自有模型托管方案、Responses API 等多个模型服务和工具产品。

从官方获悉，豆包・图像编辑模型 SeedEdit 3.0 基于强大的文生图模型 Seedream 3.0，具备更强的指令遵循能力、图像保持能力和更强的图像生成质量；叠加多样化的数据融合方法与特定奖励模型，可支持 1K 以上高清图像的生成与处理。

用户只需通过自然语言指令，即可完成消除多余内容、改变光影效果、替换文字等操作。同时，豆包・图像编辑模型 3.0 具备对风格、结构与语义的精准控制力，能够像人类大脑一样理解指令、深度思考，解锁更多创新的修图场景，例如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等 P 图玩法。

官方介绍称，豆包・图像编辑模型 3.0 可广泛应用于影像创作、广告营销、游戏宣传等领域，企业用户可在火山方舟平台调用 API，个人用户可使用即梦或豆包 App 进行体验。

不该动的地方，绝不动！

豆包・图像编辑模型 3.0 精准锁定头发区域换成短发，只修改毛衣区域颜色和纹理并添加项链。

调整人物姿态让其自然落座，背景、人物面部特征、其他细节毫发无损！

▲ prompt：变成时尚短发造型。改变姿势，让她坐在椅子上
你的话，它听得懂、做得到！

豆包・图像编辑模型 3.0 只瞄准文字区域，字体、光影会自动匹配原图风格，智能填充周围纹理，画面完好如初！

▲ prompt：把“MORE”变成“MAGAZINE”。把“探索未知”变成“凝视内心”
P 完还是那么美，那么清晰！

豆包・图像编辑模型 3.0 让黑夜秒变阳光明媚的白昼，光影自然过渡，建筑、树木细节清晰锐利，毫无涂抹感或分辨率下降。

▲ prompt：把场景变为白天
会“脑补”，理解力 MAX！

豆包・图像编辑模型 3.0 能理解“发酵”过程，生成体积膨大、充满气泡的发酵面团图。并且基于面团状态进行推理，在保持面团主体关联性的前提下，生成金黄酥脆、香气四溢的面包图。

prompt：1 小时之后将会发生什么？面团会变成什么样的食物呢？
旅游照片中路人太多？说句“去掉所有路人”，背景瞬间干干净净~

▲ prompt：把所有路人都去掉
下载的图片有水印？下指令“消除文字”，无痕处理比橡皮擦还好用~

prompt：消除图片中的文字
老照片想上色？线稿想变写实？一句话搞定，色彩均匀又自然。

prompt：把女人站在埃菲尔铁塔前的黑白照片变成彩色的
prompt：把线稿建筑变成水彩画
想换光影氛围？发出指令“逆光暖色调金色光晕”，秒变电影质感。

prompt：保持原画面主体内容与构图不变，逆光、暖色调、光影交织、轮廓光、氛围感、阳光洒入、金色光晕、明暗对比
想给照片或设计换个 Style？“毛毡风”“水彩风”“卡通风”…… 一句指令就能切换，让你的创意无限延伸！

豆包・同声传译模型 2.0 正式发布：3 秒极低延迟，0 样本声音复刻

传统的翻译系统通常依赖于“级联模型”—— 多个模块相互串联，依次处理语音识别、翻译、声音复刻和语音合成等任务，翻译结果不够连贯、处理速度慢。

此次全新发布的豆包・同声传译模型 Seed-LiveInterpret 2.0，支持全双工语音理解和生成框架，将传统机器同传的语音延迟从 8-10 秒降低到 2-3 秒，实现文本与语音的同步生成；无需提前录制，一边说话一边采样，实现 0 样本声音复刻，让同一个人同音色开口说外语，带来更沉浸的体验。

豆包大模型 1.6 系列再升级：极速版延迟低至 10ms

今年 6 月，豆包大模型 1.6 系列多个模型正式发布，为企业提供多样化选择。此次，极速版 Doubao-Seed-1.6-flash 模型在保持出色的视觉理解能力的同时，升级了代码、推理、数学等大语言模型能力。

Doubao-Seed-1.6-flash 模型，非常适合智能巡检、手机助手、智能硬件等对模型效果、速度和成本都有要求的大规模商业化场景。该模型具有业界领先的极低延迟，TPOT 仅 10ms，并依然具备强大的视觉理解能力。

价格上，Doubao-Seed-1.6-flash 在输入文本长度 0-32k 的区间中（企业使用量最大），每百万 tokens 输入仅需 0.15 元，输出仅 1.5 元。在真实的客户案例中，该模型帮助客户延迟下降 60%，成本降低 70%。

此外，火山引擎发布全模态向量化模型 Seed1.6-Embedding，首次实现了“文本图像视频”混合模态的融合检索，帮助企业构建更强大的多模态知识库。在权威测评榜单中，该模型包揽了多模态全面任务、中文文本的 SOTA 成绩。