メインコンテンツへスキップ

音声パイプライン

すべての通話はリアルタイムのループで動作します:発信者が話す → 音声が文字起こしされる → LLM が返答を生成する → TTS が読み上げる。これが通話の間中、継続的に行われます。 各ステージは設定可能 — プロバイダーとモデルを選択します。OneInbox がストリーミング・接続管理・タイミングを担当します。

ステージ 1 — 音声認識(STT)

発信者が話すと、音声はリアルタイムで STT プロバイダーにストリーミングされます。OneInbox は発話終了検出を使用して発信者のターンが終わったことを検知します — 固定タイマーではなく、ポーズ閾値に基づきます。文字起こし結果はすぐに LLM に渡されます。 設定内容: プロバイダー、モデル、言語。 プラットフォームプロバイダー(認証情報不要): Deepgram(nova-3flux-enflux-multi)、Whisper、AssemblyAI、Azure。 Deepgram nova-3 がデフォルトで推奨 — 最低の文字起こし遅延を実現し、全体の応答時間を直接削減します。

ステージ 2 — 言語モデル(LLM)

文字起こしテキストが、会話履歴全体・システムプロンプト・ナレッジベースのコンテキストとともに LLM に届きます。LLM が返答を生成します。 ストリーミング: LLM はトークンを生成しながらストリーミングします。OneInbox は最初の文の区切りが検出された時点で TTS へテキストの受け渡しを開始します — 返答全体が完成するまで待ちません。 ツール呼び出し: LLM がツール(転送・SMS・予約など)を呼び出すことを決定すると、OneInbox がツールを実行し、結果を LLM に返します。この間も発信者には通常の音声が流れます — エージェントは無音にならず話し続けます。 設定内容: プロバイダー、モデル、システムプロンプト、temperature、ツール、ナレッジベース。 プラットフォームプロバイダー(認証情報不要): OpenAI、Shisa。Anthropic と Groq は認証情報が必要(BYOK)。

ステージ 3 — 音声合成(TTS)

LLM が返答テキストをストリーミングすると、TTS がリアルタイムで音声に変換します。音声は生成されながら発信者にストリーミングされます — 返答全体が完成する前に発信者はエージェントの声を聞き始めます。 設定内容: プロバイダー、ボイス、速度、安定性。 プラットフォームプロバイダー(認証情報不要): Cartesia、Deepgram、ElevenLabs、OpenAI、Minimax、Shisa。

割り込み処理

エージェントが話している最中に発信者が話すと、OneInbox がそれを検出してエージェントの音声を即座に停止します — 発信者の新しい発話が新しい STT → LLM → TTS サイクルに直接入ります。interruption_sensitivity フィールド(0.0〜1.0)でエージェントが割り込まれやすさを制御できます。

レイテンシ

応答レイテンシは 3 つのセグメントの合計です:
セグメント計測内容
STT レイテンシ発信者が話し終えてから文字起こしが LLM に届くまでの時間
LLM TTFT(最初のトークンまでの時間)文字起こしが届いてから LLM が最初のトークンを生成するまでの時間
TTS TTFB(最初のバイトまでの時間)最初のトークンが TTS に届いてから最初の音声バイトが生成されるまでの時間
3 つのステージはすべて並行してストリーミングされるため、発信者は自分の発話が終わってから通常 800〜1500 ms 以内にエージェントの返答を聞き始めます(プロバイダーの選択により異なります)。

通話の種類

種類トランスポート接続方法
ブラウザ通話WebRTCWeb SDK または POST /v1/calls/web 経由。電話番号不要 — すべてインターネット経由
アウトバウンド電話PSTN / SIPエージェントが from_number から to_numberPOST /v1/calls で発信
インバウンド電話PSTN / SIP発信者がお客様の番号に発信 — その番号に割り当てられたエージェントにルーティング
同じエージェント設定がすべての通話タイプで機能します。

OneInbox が管理するもの

  • STT・LLM・TTS 間のリアルタイム音声ストリーミング
  • 発話終了検出とターン管理
  • 割り込み検出とエージェント音声カットオフ
  • ツール実行と結果の LLM コンテキストへの注入
  • ナレッジベース検索とコンテキスト注入
  • 無音タイムアウトと終了フレーズ検出
  • 文字起こし・通話メタデータ・AI 要約
  • 電話通話のテレフォニールーティング(PSTN/SIP)
  • ブラウザ通話の WebRTC セッショントークン

次のステップ