メインコンテンツまでスキップ

ASR クイックスタート

この​ガイドでは、​Shisa ASR に​対して​最初の​文字起こしを​行います。​API キーが​必要です — Shisa プラットフォームで​作成してください。​新規アカウントには​**$10 分の​無料クレジット**が​含まれます。

1. API キーを​取得する

Shisa AI アカウントに​サインアップし、Shisa プラットフォームから​ API キーを​取得します。shsk: プレフィックスを​付けて​ Authorization ヘッダーに​含めてください​:

Authorization: Bearer shsk:YOUR_API_KEY
警告

ASR は​ ASR 専用の​認証ヘッダーを​使用します。​トークンには​ shsk: プレフィックスを​付ける​必要が​あります — Authorization: Bearer shsk:YOUR_API_KEY。​トークンが​欠落しているか​不正な​形式の​場合は​ 401 エラーが​返されます。

ヒント

API キーを​ソース管理に​含めないでください。​実際の​アプリケーションでは、​環境変数​(例: SHISA_API_KEY)から​読み込んでください。

2. 音声を​準備する

API は​ WAV、​OGG、​MP3、​または​ FLAC の​ base64 エンコードされた​音声を​受け付けます。​まず、​サポートされている​ファイルを​ base64 に​エンコードします:

base64 -w0 audio.ogg # Linux
base64 -i audio.ogg # macOS

3. リクエストを​送信する

base64 エンコードされた​音声を​ audio フィールドに​入れて、​エンドポイントに​ POST リクエストを​送信します。

curl
curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \
-H 'Authorization: Bearer shsk:YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{
"audio": "'$(base64 -w0 audio.ogg)'"
}'
Python
import base64
import requests

# Read and encode audio file
with open("audio.ogg", "rb") as f:
audio_data = base64.b64encode(f.read()).decode("utf-8")

url = "https://api.shisa.ai/asr/srt/audio_llm"
headers = {
"Authorization": "Bearer shsk:YOUR_API_KEY",
"Content-Type": "application/json"
}

payload = {
"audio": audio_data
}

response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
print(response.json())
JavaScript
async function transcribeAudio(audioFile) {
// Read file and convert to base64
const fileBuffer = await audioFile.arrayBuffer();
const base64Audio = btoa(
new Uint8Array(fileBuffer).reduce(
(data, byte) => data + String.fromCharCode(byte),
''
)
);

const response = await fetch('https://api.shisa.ai/asr/srt/audio_llm', {
method: 'POST',
headers: {
'Authorization': 'Bearer shsk:YOUR_API_KEY',
'Content-Type': 'application/json'
},
body: JSON.stringify({
audio: base64Audio
})
});

if (!response.ok) {
throw new Error(`API request failed: ${response.status}`);
}

return await response.json();
}

// Example usage with file input
document.querySelector('#audioInput').addEventListener('change', async (e) => {
const file = e.target.files[0];
if (file) {
const result = await transcribeAudio(file);
console.log('Transcription:', result);
}
});
注記

必須なのは​ audio フィールドのみです。​言語は​自動検出され、​チューニングパラメータには​適切な​デフォルト値が​使用されます。​特定の​言語を​指定したり、​ドメイン用語を​追加したりするには、API リファレンスを​参照してください。

4. レスポンスを​読む

API は、​文字起こしされた​テキスト、​検出された​言語、​信頼度スコアを​含む JSON レスポンスを​返します:

{
"text": "こんにちは、シサAIです。",
"language": "ja",
"confidence": 0.98
}

次の​ステップ

  • すべての​リクエストパラメータと​エラーコードは​ API リファレンスを​参照してください。
  • サポートされている​形式と​検出可能な​97言語に​ついては、音声と​言語を​参照してください。
  • サービス全体の​認証ヘッダーの​規約に​ついては、認証で​学べます。