Google、70言語対応のリアルタイム音声翻訳を発表。会話しながら通訳する時代へ

Googleが新しい音声モデル「Gemini 3.5 Live Translate」を発表。

最大の特徴は、話し終わるのを待たずに翻訳できる点となっていて、これ、額面通りなら結構スゴイ。

従来の音声翻訳は、発話が終わってから翻訳を開始する方式が中心だったのですが、Gemini 3.5 Live Translateは、会話中の音声をリアルタイムで解析しながら翻訳音声を生成するのだそうで、70以上の言語に対応、Google翻訳アプリ、Google Meet、開発者向けAPIへと順次展開されるようです。

会話しながら翻訳できる

これが実現すると「通訳を待つ時間」が大幅に短くなるわけで、にわかには信じ難いことではありますよね。

従来方式では「相手が話す」「発話終了を検知」「翻訳開始」「翻訳音声を再生」という流れだったのですが、Gemini 3.5 Live Translateでは、話している途中から翻訳を生成するようです。

当然ながら完全な同時通訳ではないようですが、数秒遅れで追従するため、不自然な沈黙が発生しにくいのだそうで、人間の通訳に近い体験を目指した設計となっている感じですね。

70以上の言語を自動認識

今回のモデルは70以上の言語をサポートし、利用者が事前に言語を指定する必要もないのだそうで、会話の内容から自動的に言語を判別するようで、さらに騒音環境への耐性も強化されていることから、国際会議や海外旅行、オンライン授業やライブ配信、カスタマーサポートなどで活用しやすくなっているようです。

Google翻訳アプリにも搭載

Google翻訳アプリにもライブ翻訳機能が追加されるようで、Android版では新たに「リスニングモード」を搭載し、ユーザーはスマートフォンを耳に当てたまま翻訳音声を聞けるとのことで、スマホ画面を見続ける必要がなくなり、自然な会話スタイルを維持できるようになり対面コミュニケーションがしやすくなっていきますね。

翻訳アプリから「携帯型通訳機」へ進化した形と言えるでしょう。

Google Meetも大幅強化

これ、法人向けサービスにも影響は大きく、Google Meetでは従来5言語だった音声翻訳機能が70言語以上へ拡大され、さらに英語中心の翻訳から脱却し、多言語間の翻訳にも対応します。

Googleによると、1つの会議内で2,000以上の言語ペアを扱えるようになるのだそうで、国際チームを持つ企業にとっては大きな改善となり、会議通訳のコスト削減にもつながる可能性があります。

開発者向けAPIも公開

Gemini Live APIとして開発者向けにも提供を開始するようで、Gemini Live APIやGoogle AI Studioで利用可能となり、Agora、LiveKitなどのリアルタイム通信基盤も対応予定となっています。

注意点は「翻訳」ではなく「会話体験」

重要なのは翻訳精度だけではなくて、「会話体験」の改善が中心となっています。

ChatGPT翻訳や従来翻訳との違い

項目	従来翻訳	Gemini 3.5 Live Translate
翻訳開始	発話後	発話中
言語設定	手動設定が多い	自動認識
音声表現	機械的になりやすい	話速やイントネーション維持
用途	翻訳中心	会話中心

つまりGoogleは翻訳ツールではなく、「言語の壁を感じさせない会話基盤」を狙っているわけです。

GoogleのGemini 3.5 Live Translateは、音声翻訳を「変換ツール」から「リアルタイム会話基盤」へ進化させる発表であり、特に影響を受けるのは以下の3者だ。

Google翻訳を使う一般ユーザー
国際会議を行う企業
音声サービスを開発する事業者

今後の焦点は翻訳精度ではなく、人間同士が言語を意識せず会話できるレベルまで到達できるかどうかで、今回の発表は、その実現に向けた大きな一歩といえます。

MyEix

思考を外に出せ。AIを、自分の武器にする。