【2026年5月最新】OpenAIが音声AIを刷新、リアルタイム通話と多言語対応はどう変わるか

「AIの音声対応はまだ不自然」「多言語の電話対応や議事録は別ツールの寄せ集めになる」と感じている企業は多いはずです。 OpenAIは2026年5月7日、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3つの新音声モデルをAPIで公開しました。本記事では、何が発表されたのか、従来の文字起こし中心の構成と何が違うのか、料金と使い分け、そして中小企業がどこから試すべきかを整理します。

1. まず押さえるべき事実：OpenAIが5月7日に公開した3モデル

OpenAIは2026年5月7日、API向けに新しい音声モデル群を発表しました。中核は、会話しながら推論とツール実行まで担う GPT-Realtime-2、70以上の入力言語から13言語へリアルタイム翻訳する GPT-Realtime-Translate、そして話している途中から文字起こしを返す GPT-Realtime-Whisperです。

今回のポイントは、単に音声をテキスト化する精度改善ではありません。OpenAI自身が「listen, reason, translate, transcribe, and take action as a conversation unfolds」と整理している通り、音声インターフェースが聞く、考える、訳す、記録する、動くまで一続きになってきました。これは、従来のIVRや議事録ツールとは別の設計思想です。

モデル	役割	公式発表で確認できる要点
GPT-Realtime-2	会話しながら推論・ツール実行	GPT-5級の推論、32K→128Kコンテキスト拡張、並列ツール呼び出し、音声での進捗説明に対応
GPT-Realtime-Translate	リアルタイム多言語通話	70以上の入力言語、13出力言語、会話のペースを保った翻訳
GPT-Realtime-Whisper	低遅延のストリーミング文字起こし	話しながら逐次転記し、会議字幕・議事録・通話後処理を高速化

既存ブログではChatGPTのメモリ強化や高度アカウント保護を扱ってきましたが、今回はChatGPTの設定論ではなく、 音声UIそのものを業務アプリへ埋め込むための基盤更新です。切り口がかなり異なります。

2. なぜ重要か：音声AIが「文字起こしの先」へ進んだ

OpenAIの音声ガイドでは、音声アプリの構成を「request-based API」と「realtime session」に分けています。ファイルを渡してあとで結果を返す方式は実装しやすい一方、通話や接客のように即応が必要な場面では限界があります。新モデル群は、この後者を本気で押し広げる発表です。

特にGPT-Realtime-2では、会話中に「少し待ってください、確認します」のような短い前置き、複数ツールの並列実行、失敗時の自然なリカバリーまで設計されています。つまり、音声AIが単に聞き返すだけでなく、処理中であることを声で伝えながら業務を進める段階に入ったわけです。

従来の音声導入

音声を文字にする
別のLLMへ要約を投げる
別システムで実行する

今回のRealtime構成

会話しながら推論する
ツールを呼びつつ応答する
翻訳と記録を並走できる

音声AIが「文字起こし単体」から「会話中に仕事を進める構成」へ移っている

これは、AIコンタクトセンターや予約電話、社内ヘルプデスク、訪日対応など、その場で文脈を持ちながら答える業務ほど効きます。逆に言えば、録音ファイルをあとで議事録にするだけなら、まだ request-based な文字起こしAPIで十分な場面もあります。

3. 3モデルの違いと料金をどう見るか

導入判断では「何がすごいか」より、どのモデルがどの課金軸なのかを理解する方が重要です。 GPT-Realtime-2は音声トークン課金、TranslateとWhisperは分課金です。ここを混同すると、PoCの見積もりがぶれます。

項目	料金	向いている用途
GPT-Realtime-2	音声入力 $32 / 100万トークン、音声出力 $64 / 100万トークン、cached input $0.40	問い合わせ対応、音声受付、通話中の業務支援、予約変更など
GPT-Realtime-Translate	$0.034 / 分	多言語窓口、海外営業、イベント通訳、訪日顧客対応
GPT-Realtime-Whisper	$0.017 / 分	会議字幕、議事録、通話ログ、面談メモ、教育現場の文字起こし

また、Speech to text の公式ガイドでは、通常の `transcriptions` エンドポイントは引き続き `gpt-4o-mini-transcribe`、`gpt-4o-transcribe`、`gpt-4o-transcribe-diarize` を使えます。つまりOpenAIは、ファイル処理向け文字起こしとリアルタイム音声処理を分けて提供しています。すべてをRealtimeへ寄せる必要はありません。

MIRAINA視点で見ると、この分岐はかなり実務的です。リアルタイム応答が必要な電話や接客だけRealtimeを使い、社内会議のアーカイブや録音整理は既存の文字起こし系で回す方が、コストと開発難易度のバランスを取りやすいです。

4. 企業・現場への影響：どの業務から効くか

では、どの業務から変わるのか。OpenAIの発表では、Zillow、Deutsche Telekom、Vimeoなどが例示されていますが、日本の中小企業でまず想像しやすいのは次の3領域です。

Step 01 電話・受付
営業時間案内、予約変更、一次回答
Step 02 会議・面談
リアルタイム字幕、要点整理、次アクション化
Step 03 多言語対応
訪日客窓口、海外営業、イベント通訳

中小企業が先に試しやすい3つの音声AI導入領域

たとえば、クリニックや店舗なら予約変更や営業時間案内、採用面談の要約、社内会議のアクション抽出は効果が見えやすいです。製造業や物流でも、手が離せない現場で音声からFAQを呼び出す設計は相性がよいでしょう。文字入力が面倒な現場ほど、音声は導入価値が高くなります。

一方で、契約交渉やクレーム一次対応のように、言い回しの誤差がそのままリスクになる領域では、いきなり自動完結させるべきではありません。まずは字幕、要約、社内オペレーター支援から始め、そのあとに自動応答へ広げる方が安全です。これはAI研修や生成AI活用支援でもよく出る進め方です。

5. 中小企業が今やるべき選び方

新しい音声AIを見ると、すぐに「電話自動化を全部やりたい」と考えがちです。ただ、現実には次の順番で切る方が失敗しにくいです。

第一に、リアルタイム性が本当に必要かを分けること。 その場で返答が要るならRealtime、あとで処理できるなら通常の文字起こしAPIで十分です。ここを分けるだけで、要件定義がかなり楽になります。

第二に、音声AIへ何を任せて何を人に残すかを決めること。 予約変更、FAQ、案内のような定型から始めるのか、社内会議の記録や検索補助から始めるのかで、必要なモデルもKPIも変わります。

第三に、翻訳・記録・実行を分けて設計すること。 多言語通話が必要なら Translate、議事録が主なら Whisper、会話しながらツール連携まで要るなら Realtime-2 です。一つのモデルで全部やるより、役割別に組む方が現場では管理しやすいケースが多いです。

MIRAINAでは、AI導入時に「どの業務は音声化の投資対効果があるか」「Realtimeにする範囲はどこまでか」を先に整理します。モデル名を追うこと自体より、自社の業務フローにどの音声経路を差し込むかの方が成果に直結するからです。

6. まとめ

2026年5月7日のOpenAI発表は、音声AIを「文字起こし機能」から「会話しながら仕事を進める基盤」へ進める内容でした。 GPT-Realtime-2は推論とツール実行、GPT-Realtime-Translateは多言語通話、GPT-Realtime-Whisperは低遅延文字起こしを担います。

重要なのは、全部を一度に導入しないことです。まずはリアルタイム性が必要な業務と不要な業務を分け、そのうえで翻訳、記録、実行のどれがボトルネックかを見極めるべきです。音声AIは派手ですが、成果が出るかどうかは業務切り分けで決まります。

参考リンク

記事の概要