谷歌推出支持70余种语言的实时语音翻译功能

谷歌于周二发布了 Gemini 3.5 Live Translate——一款由 AI 驱动的音频模型，可近乎实时地在70余种语言之间翻译语音，标志着该公司在设备端翻译技术方面迈出了迄今最具雄心的一步。同日，Google DeepMind 推出了实验性开放模型 DiffusionGemma，该模型将扩散技术应用于 Gemma 4 架构，文本生成速度最高可达标准自回归模型的四倍。

打破语言壁垒

Gemini 3.5 Live Translate 有别于传统的逐句翻译系统——后者需要等说话者说完一句才能输出译文。这款模型能够持续处理并翻译语音，仅比说话者滞后数秒，同时保留原有的语调、节奏和音调。

该模型正在向三个平台推出：面向全球用户，在 Android 和 iOS 版 Google 翻译应用上线；面向开发者，通过 Gemini Live API 和 Google AI Studio 开放公开预览；面向特定 Google Workspace 企业客户，从本月起在 Google Meet 上进入私测阶段。Meet 的集成将语音翻译支持的语言从此前的 5 种扩展至逾 70 种，单次会议可实现超过 2,000 种语言组合的互译。

Android 新增的"聆听模式"让用户无需耳机，只需像接听普通电话一样将设备贴近耳朵，即可通过听筒收听翻译内容。所有生成的音频均经过 SynthID 水印标记，以便识别 AI 生成内容。

DiffusionGemma：通过扩散实现文本生成

另外，谷歌 DeepMind 发布了 DiffusionGemma——一个拥有 260 亿参数的混合专家模型。它生成文本的方式类似于图像扩散模型生成图片：从噪声出发，并行地对最多 256 个 token 的整个块进行逐步精炼，而非逐词预测。

DiffusionGemma 基于 Gemma 4 架构构建，推理时仅激活 38 亿个参数，在单块英伟达 H100 GPU 上可达每秒超过 1,000 个 token 的生成速度，在消费级 GeForce RTX 5090 上也可达约每秒 700 个 token。模型权重已在 Hugging Face 上以 Apache 2.0 开源许可证发布。

谷歌 CEO 桑达尔·皮查伊在社交媒体上着重介绍了 DiffusionGemma，称其为"一匹推理速度提升最高达 4 倍的千里马"，标志着公司的文本扩散研究正式融入 Gemma 4 家族。

速度与质量的权衡取舍

谷歌提醒用户，DiffusionGemma 目前仍处于实验阶段，在输出质量基准测试上落后于标准 Gemma 4，因此主要推荐将其用于对速度要求较高的本地工作流，例如内联编辑、快速迭代和智能体循环，而非需要追求极致质量的生产环境部署。英伟达已针对旗下全系硬件对该模型进行了优化，覆盖从消费级 GPU 到 DGX Spark 系统，并在 vLLM、Hugging Face Transformers 和 Unsloth 中提供了首日支持。