仕組み - OneInbox

音声パイプライン

すべての通話はリアルタイムのループで動作します：発信者が話す → 音声が文字起こしされる → LLM が返答を生成する → TTS が読み上げる。これが通話の間中、継続的に行われます。各ステージは設定可能 — プロバイダーとモデルを選択します。OneInbox がストリーミング・接続管理・タイミングを担当します。

ステージ 1 — 音声認識（STT）

発信者が話すと、音声はリアルタイムで STT プロバイダーにストリーミングされます。OneInbox は発話終了検出を使用して発信者のターンが終わったことを検知します — 固定タイマーではなく、ポーズ閾値に基づきます。文字起こし結果はすぐに LLM に渡されます。 設定内容： プロバイダー、モデル、言語。 プラットフォームプロバイダー（認証情報不要）： Deepgram（nova-3、flux-en、flux-multi）、Whisper、AssemblyAI、Azure。 Deepgram nova-3 がデフォルトで推奨 — 最低の文字起こし遅延を実現し、全体の応答時間を直接削減します。

ステージ 2 — 言語モデル（LLM）

文字起こしテキストが、会話履歴全体・システムプロンプト・ナレッジベースのコンテキストとともに LLM に届きます。LLM が返答を生成します。 ストリーミング： LLM はトークンを生成しながらストリーミングします。OneInbox は最初の文の区切りが検出された時点で TTS へテキストの受け渡しを開始します — 返答全体が完成するまで待ちません。 ツール呼び出し： LLM がツール（転送・SMS・予約など）を呼び出すことを決定すると、OneInbox がツールを実行し、結果を LLM に返します。この間も発信者には通常の音声が流れます — エージェントは無音にならず話し続けます。 設定内容： プロバイダー、モデル、システムプロンプト、temperature、ツール、ナレッジベース。 プラットフォームプロバイダー（認証情報不要）： OpenAI、Shisa。Anthropic と Groq は認証情報が必要（BYOK）。

ステージ 3 — 音声合成（TTS）

LLM が返答テキストをストリーミングすると、TTS がリアルタイムで音声に変換します。音声は生成されながら発信者にストリーミングされます — 返答全体が完成する前に発信者はエージェントの声を聞き始めます。 設定内容： プロバイダー、ボイス、速度、安定性。 プラットフォームプロバイダー（認証情報不要）： Cartesia、Deepgram、ElevenLabs、OpenAI、Minimax、Shisa。

割り込み処理

エージェントが話している最中に発信者が話すと、OneInbox がそれを検出してエージェントの音声を即座に停止します — 発信者の新しい発話が新しい STT → LLM → TTS サイクルに直接入ります。interruption_sensitivity フィールド（0.0〜1.0）でエージェントが割り込まれやすさを制御できます。

レイテンシ

応答レイテンシは 3 つのセグメントの合計です：

セグメント	計測内容
STT レイテンシ	発信者が話し終えてから文字起こしが LLM に届くまでの時間
LLM TTFT（最初のトークンまでの時間）	文字起こしが届いてから LLM が最初のトークンを生成するまでの時間
TTS TTFB（最初のバイトまでの時間）	最初のトークンが TTS に届いてから最初の音声バイトが生成されるまでの時間

3 つのステージはすべて並行してストリーミングされるため、発信者は自分の発話が終わってから通常 800〜1500 ms 以内にエージェントの返答を聞き始めます（プロバイダーの選択により異なります）。

通話の種類

種類	トランスポート	接続方法
ブラウザ通話	WebRTC	Web SDK または `POST /v1/calls/web` 経由。電話番号不要 — すべてインターネット経由
アウトバウンド電話	PSTN / SIP	エージェントが `from_number` から `to_number` に `POST /v1/calls` で発信
インバウンド電話	PSTN / SIP	発信者がお客様の番号に発信 — その番号に割り当てられたエージェントにルーティング

同じエージェント設定がすべての通話タイプで機能します。

OneInbox が管理するもの

STT・LLM・TTS 間のリアルタイム音声ストリーミング
発話終了検出とターン管理
割り込み検出とエージェント音声カットオフ
ツール実行と結果の LLM コンテキストへの注入
ナレッジベース検索とコンテキスト注入
無音タイムアウトと終了フレーズ検出
文字起こし・通話メタデータ・AI 要約
電話通話のテレフォニールーティング（PSTN/SIP）
ブラウザ通話の WebRTC セッショントークン

次のステップ

クイックスタート — 数分で最初の通話を発信
エージェント — エージェント設定の完全リファレンス
LLM — AI の頭脳を設定する
ボイス — 利用可能なボイスの閲覧と TTS の設定

​音声パイプライン

​ステージ 1 — 音声認識（STT）

​ステージ 2 — 言語モデル（LLM）

​ステージ 3 — 音声合成（TTS）

​割り込み処理

​レイテンシ

​通話の種類

​OneInbox が管理するもの

​次のステップ