苹果上线FastVLM浏览器版，高效视频字幕模型引领本地AI新体验

人阅读 2025-09-02 12:47:34业界资讯

近日，有科技媒体报道称，苹果公司在 Hugging Face 平台上线了 FastVLM 视觉语言模型的浏览器试用版本，用户可通过浏览器直接体验这一新技术。

FastVLM 因其高效的视频字幕生成能力而受到关注，尤其在搭载 Apple Silicon 芯片的 Mac 设备上运行顺畅，展现出强大的实用性。该模型基于苹果自研的开源机器学习框架 MLX 进行优化，专为适配 Apple Silicon 芯片而设计。相比其他同类模型，FastVLM 在体积上缩减至原来的三分之一，同时在处理速度上提升了 85 倍，展现出显著优势。

此次推出的 FastVLM-0.5B 轻量版本可在浏览器中加载运行。测试显示，在配备 16GB 内存的 M2 Pro 版 MacBook Pro 上，首次加载模型需花费数分钟时间，但一旦启动，模型便可准确识别画面中的人物、环境、表情及各类物体。

一个值得关注的特点是，FastVLM 支持在本地设备上运行，所有数据处理均在本地完成，无需上传至网络服务器，从而有效保护用户隐私。

此外，FastVLM 的低延迟与本地运行能力，使其在可穿戴设备和辅助技术领域具有广泛应用前景。例如在虚拟摄像头应用中，该模型能够实时提供多场景的详细描述。未来，它有望成为智能穿戴设备的重要技术支撑，为用户带来更加智能化和便捷的交互方式。