メインコンテンツまでスキップ

Shisa ASR

Shisa ASR は、​日本語に​最適化され、​英語も​流暢に​扱える、​本番ワークロード向けの​音声認識​(音声テキスト変換)​API です。​単一の​ JSON リクエストで​音声を​高精度な​テキストに​変換し、​97言語に​わたって​話されている​言語を​自動的に​検出し、​カスタム語彙に​よって​ドメイン固有の​用語の​認識を​強化できます。

POST https://api.shisa.ai/asr/srt/audio_llm

base64 エンコードされた​音声​(WAV、​OGG、​MP3、​または​ FLAC)を​送信すると、​文字起こし、​検出された​言語、​信頼度スコアが​返されます。​必須なのは​ audio フィールドのみで、​言語は​自動検出され、​チューニングパラメータには​適切な​デフォルト値が​使用されます。

Shisa ASR を​選ぶ理由

  • 複数方​言サポート — 標準日本語、​関西弁、​東北弁、​その​他の​地域方​言を​正確に​認識します。
  • リアルタイムストリーミング — リアルタイムで​音声ストリームを​処理し、​ライブ文字起こしと​即座の​結果を​提供します。
  • 話者ダイアライゼーション — 会話内の​複数の​話者を​自動的に​識別して​分離します。
  • 超​高速 — 最適化された​推論パイプラインで​数時間の​音声を​数分で​処理します。
  • エンタープライズセキュリティ — エンドツーエンド暗号化と​セキュアな​音声処理で​ SOC 2 準拠です。
  • カスタム語彙hotwords を​介して​業界固有の​用語、​ブランド名、​カスタムフレーズを​追加し、​精度を​向上させます。

ユースケース

  • コールセンター分析 — 品質保証、​コンプライアンス、​エージェントトレーニング、​顧客センチメント分析の​ために、​カスタマーサービスの​通話を​自動的に​文字起こしします。
  • 会議メモ — 会議、​インタビュー、​ディスカッションを​検索可能で​実用的な​テキスト文書に​変換します。
  • 字幕と​キャプション — ビデオ、​ライブストリーム、​放送用の​正確な​字幕を​リアルタイムまたは​バッチモードで​生成します。

次の​ステップ

  • クイックスタート — curl、​Python、​または​ JavaScript で​最初の​文字起こしを​行います。
  • API リファレンス — リクエストパラメータ、​レスポンスフィールド、​エラー処理。
  • 音声と​言語 — サポートされている​形式と​検出可能な​97言語。
  • 料​金 — ASR の​利用が​どのように​課金されるか。