> ## Documentation Index
> Fetch the complete documentation index at: https://docs.oneinbox.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# 仕組み

> 通話が接続された瞬間から終了するまでに何が起きるか — パイプライン全体の解説。

## 音声パイプライン

すべての通話はリアルタイムのループで動作します：発信者が話す → 音声が文字起こしされる → LLM が返答を生成する → TTS が読み上げる。これが通話の間中、継続的に行われます。

```mermaid theme={null}
sequenceDiagram
  participant Caller as 発信者
  participant STT as 音声認識（STT）
  participant LLM as 言語モデル（LLM）
  participant TTS as 音声合成（TTS）
  participant Tool as ツール（オプション）

  Caller->>STT: 発話
  STT->>LLM: 文字起こしテキスト
  LLM->>Tool: ツール呼び出し（トリガー時）
  Tool->>LLM: ツール結果
  LLM->>TTS: 返答テキスト（ストリーミング）
  TTS->>Caller: 音声（ストリーミング）
```

各ステージは設定可能 — プロバイダーとモデルを選択します。OneInbox がストリーミング・接続管理・タイミングを担当します。

***

## ステージ 1 — 音声認識（STT）

発信者が話すと、音声はリアルタイムで STT プロバイダーにストリーミングされます。OneInbox は**発話終了検出**を使用して発信者のターンが終わったことを検知します — 固定タイマーではなく、ポーズ閾値に基づきます。文字起こし結果はすぐに LLM に渡されます。

**設定内容：** プロバイダー、モデル、言語。

**プラットフォームプロバイダー（認証情報不要）：** Deepgram（`nova-3`、`flux-en`、`flux-multi`）、Whisper、AssemblyAI、Azure。

**Deepgram nova-3** がデフォルトで推奨 — 最低の文字起こし遅延を実現し、全体の応答時間を直接削減します。

***

## ステージ 2 — 言語モデル（LLM）

文字起こしテキストが、会話履歴全体・システムプロンプト・ナレッジベースのコンテキストとともに LLM に届きます。LLM が返答を生成します。

**ストリーミング：** LLM はトークンを生成しながらストリーミングします。OneInbox は最初の文の区切りが検出された時点で TTS へテキストの受け渡しを開始します — 返答全体が完成するまで待ちません。

**ツール呼び出し：** LLM がツール（転送・SMS・予約など）を呼び出すことを決定すると、OneInbox がツールを実行し、結果を LLM に返します。この間も発信者には通常の音声が流れます — エージェントは無音にならず話し続けます。

**設定内容：** プロバイダー、モデル、システムプロンプト、temperature、ツール、ナレッジベース。

**プラットフォームプロバイダー（認証情報不要）：** OpenAI、Shisa。Anthropic と Groq は認証情報が必要（BYOK）。

***

## ステージ 3 — 音声合成（TTS）

LLM が返答テキストをストリーミングすると、TTS がリアルタイムで音声に変換します。音声は生成されながら発信者にストリーミングされます — 返答全体が完成する前に発信者はエージェントの声を聞き始めます。

**設定内容：** プロバイダー、ボイス、速度、安定性。

**プラットフォームプロバイダー（認証情報不要）：** Cartesia、Deepgram、ElevenLabs、OpenAI、Minimax、Shisa。

***

## 割り込み処理

エージェントが話している最中に発信者が話すと、OneInbox がそれを検出してエージェントの音声を即座に停止します — 発信者の新しい発話が新しい STT → LLM → TTS サイクルに直接入ります。`interruption_sensitivity` フィールド（0.0〜1.0）でエージェントが割り込まれやすさを制御できます。

***

## レイテンシ

応答レイテンシは 3 つのセグメントの合計です：

| セグメント                      | 計測内容                                   |
| -------------------------- | -------------------------------------- |
| **STT レイテンシ**              | 発信者が話し終えてから文字起こしが LLM に届くまでの時間         |
| **LLM TTFT**（最初のトークンまでの時間） | 文字起こしが届いてから LLM が最初のトークンを生成するまでの時間     |
| **TTS TTFB**（最初のバイトまでの時間）  | 最初のトークンが TTS に届いてから最初の音声バイトが生成されるまでの時間 |

3 つのステージはすべて並行してストリーミングされるため、発信者は自分の発話が終わってから通常 800〜1500 ms 以内にエージェントの返答を聞き始めます（プロバイダーの選択により異なります）。

***

## 通話の種類

| 種類            | トランスポート    | 接続方法                                                        |
| ------------- | ---------- | ----------------------------------------------------------- |
| **ブラウザ通話**    | WebRTC     | Web SDK または `POST /v1/calls/web` 経由。電話番号不要 — すべてインターネット経由   |
| **アウトバウンド電話** | PSTN / SIP | エージェントが `from_number` から `to_number` に `POST /v1/calls` で発信 |
| **インバウンド電話**  | PSTN / SIP | 発信者がお客様の番号に発信 — その番号に割り当てられたエージェントにルーティング                   |

同じエージェント設定がすべての通話タイプで機能します。

***

## OneInbox が管理するもの

* STT・LLM・TTS 間のリアルタイム音声ストリーミング
* 発話終了検出とターン管理
* 割り込み検出とエージェント音声カットオフ
* ツール実行と結果の LLM コンテキストへの注入
* ナレッジベース検索とコンテキスト注入
* 無音タイムアウトと終了フレーズ検出
* 文字起こし・通話メタデータ・AI 要約
* 電話通話のテレフォニールーティング（PSTN/SIP）
* ブラウザ通話の WebRTC セッショントークン

***

## 次のステップ

* **[クイックスタート](/jp/guides/quickstart)** — 数分で最初の通話を発信
* **[エージェント](/jp/concepts/agents)** — エージェント設定の完全リファレンス
* **[LLM](/jp/guides/llms)** — AI の頭脳を設定する
* **[ボイス](/jp/guides/voices)** — 利用可能なボイスの閲覧と TTS の設定
