Shisa ASR
Shisa ASR は、日本語に最適化され、英語も流暢に扱える、本番ワークロード向けの音声認識(音声テキスト変換)API です。単一の JSON リクエストで音声を高精度なテキストに変換し、97言語にわたって話されている言語を自動的に検出し、カスタム語彙によってドメイン固有の用語の認識を強化できます。
POST https://api.shisa.ai/asr/srt/audio_llm
base64 エンコードされた音声(WAV、OGG、MP3、または FLAC)を送信すると、文字起こし、検出された言語、信頼度スコアが返されます。必須なのは audio フィールドのみで、言語は自動検出され、チューニングパラメータには適切なデフォルト値が使用されます。
Shisa ASR を選ぶ理由
- 複数方言サポート — 標準日本語、関西弁、東北弁、その他の地域方言を正確に認識します。
- リアルタイムストリーミング — リアルタイムで音声ストリームを処理し、ライブ文字起こしと即座の結果を提供します。
- 話者ダイアライゼーション — 会話内の複数の話者を自動的に識別して分離します。
- 超高速 — 最適化された推論パイプラインで数時間の音声を数分で処理します。
- エンタープライズセキュリティ — エンドツーエンド暗号化とセキュアな音声処理で SOC 2 準拠です。
- カスタム語彙 —
hotwordsを介して業界固有の用語、ブランド名、カスタムフレーズを追加し、精度を向上させます。
ユースケース
- コールセンター分析 — 品質保証、コンプライアンス、エージェントトレーニング、顧客センチメント分析のために、カスタマーサービスの通話を自動的に文字起こしします。
- 会議メモ — 会議、インタビュー、ディスカッションを検索可能で実用的なテキスト文書に変換します。
- 字幕とキャプション — ビデオ、ライブストリーム、放送用の正確な字幕をリアルタイムまたはバッチモードで生成します。
次のステップ
- クイックスタート — curl、Python、または JavaScript で最初の文字起こしを行います。
- API リファレンス — リクエストパラメータ、レスポンスフィールド、エラー処理。
- 音声と言語 — サポートされている形式と検出可能な97言語。
- 料金 — ASR の利用がどのように課金されるか。