【速報】DeepMindがGemini 3.5を正式発表。音声翻訳の工程統合で開発者が注力すべき領域
70言語をリアルタイムで。音声AIの「つなぎ合わせ」が終わる日 DeepMindがGemini 3.5 Live Translateを発表した。 70種類以上の言語を、ほぼ遅延なしで相互に翻訳するモデルだ。 これまで音声認識・翻訳・音声合成を個別に構築していたパイプラインが過去のものになる。 End-to-Endのモデルが、人間の呼吸を読み、感情を乗せて別の言語で話し出す。
SNS運用・プログラミング・IT活用に関する情報を発信しています。
70言語をリアルタイムで。音声AIの「つなぎ合わせ」が終わる日 DeepMindがGemini 3.5 Live Translateを発表した。 70種類以上の言語を、ほぼ遅延なしで相互に翻訳するモデルだ。 これまで音声認識・翻訳・音声合成を個別に構築していたパイプラインが過去のものになる。 End-to-Endのモデルが、人間の呼吸を読み、感情を乗せて別の言語で話し出す。
ついに「考える音声」がやってきた。開発者が待ち望んだ真のリアルタイムAI OpenAIがGPT-Realtime-2を発表した。これは音声認識のアップデートではない。GPT-5クラスの推論能力が、そのまま音声インターフェースに統合された。 これまでの音声AIは、耳は良くても頭脳が追いついていなかった。これからは低遅延で、かつ複雑な論理思考を伴う音声対話がAPIで叩けるようになる。
巨大プロンプトの限界と「エージェントOS」への転換 1つの巨大なプロンプトですべてを解決する手法は限界を迎えている。どれだけ指示を詰め込んでも、AIは長すぎる命令を無視し、複雑な業務ロジックで迷子になる。 最新の海外事例では、AIを単一の知能としてではなく、複数の専門スキルを束ねる「OS」として設計する手法が主流だ。
音声AIの「とりあえず動く」は10分で作れる 音声AIエージェントの開発ハードルが下がった。 フロントエンドの複雑な処理は、マネージドAPIのSDKを使えば数行で終わる。 しかし、それを実運用に乗せようとした瞬間に地獄を見る。 エージェントは外部APIのエラー一つでパニックを起こし、思考停止に陥る。 フルマネージドの快適さと、堅牢なバックエンド設計。
音声AIの常識が今、根本から覆る 音声AIの進化が次のフェーズに入った。 これまでは音声をテキストにしてからLLMに投げるのが当たり前だった。 その常識が今、根本から覆ろうとしている。 超低遅延で自然な対話を実現する最新の音声モデルが公開された。 既存の常識を打ち破る圧倒的精度の音声認識技術も登場した。 長時間の対話履歴を保持するためのメモリ圧縮アルゴリズムまで発表された。
Google Search Liveが全言語・全ロケーションに展開された。200以上の国と地域で、カメラと音声を使ったリアルタイムAI検索が使えるようになった。 これ、地味にやばい。 「検索」という行為が「タイプする」から「話す・見せる」に変わる。ユーザーはWebサイトを訪問しなくなる。 ゼロクリック・ファンネルという現象が起きている。AIが回答を完結させ、ユーザーがサイトに来る前に選別が終わる。