Google宣布推出Gemini 3.5 Live Translate,这是最新一代即时语音翻译模型,支援超过70种语言,能提供更即时的语音对语音翻译体验。
Gemini 3.5 Live Translate不仅能自动辨识超过70种语言,还能在翻译时保留原说话者的语调、语速和音高,让翻译后的声音听起来更自然,不再像传统机器翻译那样生硬。
另外,与传统翻译工具不同,过去大多采用“一句说完再翻译”的模式,必须等到使用者完整讲完一句话后,系统才能开始产生翻译内容。 Gemini 3.5 Live Translate则改为持续生成翻译语音技术,能一边接收语音、一边同步产生翻译内容,让对话几乎能即时进行。
Google表示,整体延迟时间仅落后原说话者几秒钟,能有效避免对话中常见的尴尬停顿,让跨语言交流更加自然。
Android新增聆听模式免耳机
Gemini 3.5 Live Translate已陆续导入Android与iOS版Google翻译App。除了可搭配耳机使用外,Android装置还新增专属的“聆听模式( Listening Mode)”。即使手边没有耳机,也能像接电话一样把手机贴近耳朵,直接透过听筒收听翻译后的语音内容,使用起来更加方便。
企业用户同样能受惠于这次升级。过去Google Meet的即时语音翻译仅支援5种语言,而且大多需要透过英文作为中介语言。导入Gemini 3.5 Live Translate后,Google Meet可支援超过2,000种语言组合的即时翻译,大幅降低跨国会议的语言障碍。此外,Google也新增专属按钮,让使用者能更快速启用即时翻译功能。这项服务将率先以私人预览( Private Preview)形式,开放给部分Google Workspace企业客户体验。
除了Google自家服务之外,开发者也能透过Google AI Studio与Gemini Live API抢先体验这项技术。 Google透露,叫车平台Grab已开始测试Gemini 3.5 Live Translate,希望协助司机与国际旅客在接送过程中更顺畅地沟通。
另一方面,为了避免AI生成内容遭到滥用,Google也加入安全防护机制。所有透过Gemini 3.5 Live Translate产生的语音,都会嵌入SynthID数位浮水印。
(示意图)
纳闻 | 真实新闻与历史
