5.2.1.20.2. 文字起こし¶
入力音声ファイルをもとに文字起こしを行うためのタスクです。
5.2.1.20.2.1. 入力値¶
im_transcription <object>
├─ input <binary> *
└─ option <object>
└─ model <string>
項目名 | 必須/任意 | 型 | 配列/リスト | 説明 |
---|---|---|---|---|
im_transcription | 任意 | object | なし | - |
input | 必須 | binary | なし | 音声ファイルを指定してください。
(mp3ファイルなど)
|
option | 任意 | object | なし | - |
model | 任意 | string | なし | モデルを指定してください。
(whisperなど)
|
コラム
input に指定可能なファイル形式や model に指定する値については、各生成AIサービスの仕様を参照してください。
OpenAI:
Azure OpenAI:
注意
input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。
(実行環境のサイジング設計や負荷試験など)
5.2.1.20.2.2. 出力値¶
im_transcription <object>
└─ text <string>
項目名 | 型 | 配列/リスト | 説明 |
---|---|---|---|
im_transcription | object | なし | - |
text | string | なし | 文字起こし結果 |