intra-mart Accel Platform IM-LogicDesigner仕様書 第24版 2024-04-01

5.2.1.20.2. 文字起こし

入力音声ファイルをもとに文字起こしを行うためのタスクです。

5.2.1.20.2.1. 入力値

im_transcription <object>
  ├─ input <binary> *
  └─ option <object>
       └─ model <string>
項目名 必須/任意 配列/リスト 説明
im_transcription 任意 object なし -
input 必須 binary なし
音声ファイルを指定してください。
(mp3ファイルなど)
option 任意 object なし -
model 任意 string なし
モデルを指定してください。
(whisperなど)

コラム

input に指定可能なファイル形式や model に指定する値については、各生成AIサービスの仕様を参照してください。

OpenAI:

Azure OpenAI:

注意

input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。
(実行環境のサイジング設計や負荷試験など)

5.2.1.20.2.2. 出力値

im_transcription <object>
  └─ text <string>
項目名 配列/リスト 説明
im_transcription object なし -
text string なし 文字起こし結果