音声パイプライン
すべての通話はリアルタイムのループで動作します:発信者が話す → 音声が文字起こしされる → LLM が返答を生成する → TTS が読み上げる。これが通話の間中、継続的に行われます。 各ステージは設定可能 — プロバイダーとモデルを選択します。OneInbox がストリーミング・接続管理・タイミングを担当します。ステージ 1 — 音声認識(STT)
発信者が話すと、音声はリアルタイムで STT プロバイダーにストリーミングされます。OneInbox は発話終了検出を使用して発信者のターンが終わったことを検知します — 固定タイマーではなく、ポーズ閾値に基づきます。文字起こし結果はすぐに LLM に渡されます。 設定内容: プロバイダー、モデル、言語。 プラットフォームプロバイダー(認証情報不要): Deepgram(nova-3、flux-en、flux-multi)、Whisper、AssemblyAI、Azure。
Deepgram nova-3 がデフォルトで推奨 — 最低の文字起こし遅延を実現し、全体の応答時間を直接削減します。
ステージ 2 — 言語モデル(LLM)
文字起こしテキストが、会話履歴全体・システムプロンプト・ナレッジベースのコンテキストとともに LLM に届きます。LLM が返答を生成します。 ストリーミング: LLM はトークンを生成しながらストリーミングします。OneInbox は最初の文の区切りが検出された時点で TTS へテキストの受け渡しを開始します — 返答全体が完成するまで待ちません。 ツール呼び出し: LLM がツール(転送・SMS・予約など)を呼び出すことを決定すると、OneInbox がツールを実行し、結果を LLM に返します。この間も発信者には通常の音声が流れます — エージェントは無音にならず話し続けます。 設定内容: プロバイダー、モデル、システムプロンプト、temperature、ツール、ナレッジベース。 プラットフォームプロバイダー(認証情報不要): OpenAI、Shisa。Anthropic と Groq は認証情報が必要(BYOK)。ステージ 3 — 音声合成(TTS)
LLM が返答テキストをストリーミングすると、TTS がリアルタイムで音声に変換します。音声は生成されながら発信者にストリーミングされます — 返答全体が完成する前に発信者はエージェントの声を聞き始めます。 設定内容: プロバイダー、ボイス、速度、安定性。 プラットフォームプロバイダー(認証情報不要): Cartesia、Deepgram、ElevenLabs、OpenAI、Minimax、Shisa。割り込み処理
エージェントが話している最中に発信者が話すと、OneInbox がそれを検出してエージェントの音声を即座に停止します — 発信者の新しい発話が新しい STT → LLM → TTS サイクルに直接入ります。interruption_sensitivity フィールド(0.0〜1.0)でエージェントが割り込まれやすさを制御できます。
レイテンシ
応答レイテンシは 3 つのセグメントの合計です:| セグメント | 計測内容 |
|---|---|
| STT レイテンシ | 発信者が話し終えてから文字起こしが LLM に届くまでの時間 |
| LLM TTFT(最初のトークンまでの時間) | 文字起こしが届いてから LLM が最初のトークンを生成するまでの時間 |
| TTS TTFB(最初のバイトまでの時間) | 最初のトークンが TTS に届いてから最初の音声バイトが生成されるまでの時間 |
通話の種類
| 種類 | トランスポート | 接続方法 |
|---|---|---|
| ブラウザ通話 | WebRTC | Web SDK または POST /v1/calls/web 経由。電話番号不要 — すべてインターネット経由 |
| アウトバウンド電話 | PSTN / SIP | エージェントが from_number から to_number に POST /v1/calls で発信 |
| インバウンド電話 | PSTN / SIP | 発信者がお客様の番号に発信 — その番号に割り当てられたエージェントにルーティング |
OneInbox が管理するもの
- STT・LLM・TTS 間のリアルタイム音声ストリーミング
- 発話終了検出とターン管理
- 割り込み検出とエージェント音声カットオフ
- ツール実行と結果の LLM コンテキストへの注入
- ナレッジベース検索とコンテキスト注入
- 無音タイムアウトと終了フレーズ検出
- 文字起こし・通話メタデータ・AI 要約
- 電話通話のテレフォニールーティング(PSTN/SIP)
- ブラウザ通話の WebRTC セッショントークン