メインコンテンツまでスキップ

ASR API リファレンス

Shisa ASR API は、​単一の​ JSON リクエストで​ base64 エンコードされた​音声を​テキストに​変換します。​この​ページでは、​エンドポイント、​リクエストパラメータ、​成功レスポンス、​エラー処理に​ついて​説明します。

エンドポイント

POST https://api.shisa.ai/asr/srt/audio_llm

ASR 専用の​ shsk: プレフィックスを​付けた​ベアラートークンで​認証します:

Authorization: Bearer shsk:YOUR_API_KEY

リクエストボディは​ JSON で、​サーバーは​バイナリヘッダーから​音声形式を​自動検出します。

リクエストパラメータ

パラメータ必須説明
audiostring必須base64 エンコードされた​音声データ​(WAV、​OGG、​MP3、​または​ FLAC)。
languagestring任意言語コード​(例: "ja""en")。​自動言語検出​(LID)の​場合は​省略します。
hotwordsstring[]任意ドメイン固有の​用語の​認識精度を​高める​ための​単語/フレーズの​配列。
temperaturefloat任意サンプリング温度。​値を​低く​すると​出力が​より​決定的に​なります。​デフォルト: 0.0
top_pfloat任意Nucleus サンプリングパラメータ。​出力の​多様性を​制御します。​デフォルト: 0.85
frequency_penaltyfloat任意頻出トークンに​ペナルティを​課して​繰り返しを​減らします。​デフォルト: 0.5
repetition_penaltyfloat任意トークンの​繰り返しに​ペナルティを​課します。1.0 を​超える​値は​繰り返しを​抑制します。​デフォルト: 1.05
vadinteger任意音声区間検出モード。​デフォルト: 1
注記

必須なのは​ audio のみです。​言語は​自動検出され、​チューニングパラメータには​適切な​デフォルト値が​使用されます — クイックスタートに​示されている​最小限の​リクエストを​送信し、​必要に​応じて​パラメータを​追加できます。

成功レスポンス

成功したリクエストは、​文字起こし、​検出または​指定された​言語、​信頼度スコアを​含む JSON オブジェクトを​返します:

{
"text": "こんにちは、シサAIです。",
"language": "ja",
"confidence": 0.98
}
フィールド説明
text音声から​文字起こしされた​テキスト。
language検出または​指定された​言語コード。
confidence0 から​ 1 までの​文字起こし信頼度スコア。

エラー処理

エラーは、​HTTP スタイルの​ code と​人間が​読める​ error メッセージを​含む JSON オブジェクトを​返します:

{
"code": 400,
"error": "No audio data provided"
}

401 認証エラー

API キーが​欠落、​無効、​または​期限切れの​場合に​返されます。Authorization ヘッダーに​ shsk: プレフィックスを​付けた​有効な​トークンが​含まれている​ことを​確認してください。

{
"context": ["authMiddleware"],
"code": 104,
"name": "ErrAuthenticationFailed",
"error": "Authentication error: Invalid token"
}

エラーコード

Code原​因エラーメッセージ
400audio フィールドの​欠落、​または​音声が​空に​デコードされるNo audio data provided
400base64 エンコードされていない、​または​ base64 デコードに​失敗するInvalid base64 audio data
400サポートされていない​音声形式Unsupported audio format
500文字起こしサービスが​準備できていないTranscription service not available
500バックエンドの​障害Transcription failed: ...

次の​ステップ

  • クイックスタートで​動作する​リクエストを​作成します。
  • サポートされている​形式と​検出可能な​97言語に​ついては、音声と​言語を​参照してください。
  • 利用が​どのように​課金されるかは料​金を​参照してください。