2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

人阅读 2025-04-30 14:58:06

4 月 30 日消息，在首届 LlamaCon 大会上，Meta 公司在推出独立 AI 应用之外，还发布了 Llama API，目前以免费预览形式向开发者开放。

援引博文，Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型，提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

开发者可通过一键创建 API 密钥，快速上手使用，同时 API 还提供轻量级的 TypeScript 和 Python SDK。为了方便开发者从 OpenAI 平台迁移应用，Llama API 完全兼容 OpenAI SDK。

Meta 还联手 Cerebras 和 Groq，进一步优化 Llama API 的性能。Cerebras 宣称，其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens / s，比 NVIDIA 等传统 GPU 解决方案快 18 倍。

根据 Artificial Analysis 基准测试数据，这一速度远超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼联合创始人 Andrew Feldman 表示：“我们很自豪能让 Llama API 成为全球最快的推理 API。开发者在构建实时应用时需要极致速度，Cerebras 的加入让 AI 系统性能达到 GPU 云无法企及的高度。”

此外，Groq 提供的 Llama 4 Scout 模型速度为 460 tokens / s，虽不及 Cerebras，但仍比其他 GPU 方案快 4 倍。在 Groq 上，Llama 4 Scout 每百万 tokens 输入费用为 0.11 美元，每百万 tokens 输出费用为 0.34 美元；Llama 4 Maverick 每百万 tokens 输入费用为 0.50 美元，每百万 tokens 输出费用为 0.77 美元。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。