谷歌发布 Gemini 3.5 Live Translate:实现高保真实时语音互译
谷歌近日正式宣布推出 Gemini 3.5 Live Translate,旨在提供极低延迟的实时语音到语音翻译体验。该技术不仅能够实现高效的跨语言交流,其核心突破在于能够精准保留原说话者的情感色调、语速节奏以及音高,使翻译后的语音在听感上与原主极其相似,极大提升了沟通的自然度和情感传递能力。
在技术原理上,Gemini 3.5 Live Translate 深度集成了谷歌最新的多模态大模型能力,通过端到端的语音处理架构,减少了传统“语音转文字 $
ightarrow$ 文字翻译 $
ightarrow$ 文字转语音”流程中的信息损耗和延迟。为了应对 AI 语音合成可能带来的安全风险及深度伪造(Deepfake)挑战,谷歌在所有生成的翻译语音中嵌入了 SynthID 数字化水印。这种不可见的水印技术能确保在保证用户体验的同时,使第三方工具能够识别出该音频是由 AI 生成,从而在安全和伦理层面提供必要的保障。
此举标志着谷歌在 AI 实时通信领域再次发力,不仅在技术层面挑战了同类产品的延迟表现,更通过对个体声音特质的还原,试图打破语言屏障带来的文化和情感隔阂,预计将广泛应用于国际商务、旅游及跨国远程协作等多种实际场景。
来源: ARStevechinca 报道 (作者:Ryan Whitwam)
