intra-mart Accel Platform IM-LogicDesigner仕様書第24版 2024-04-01

目次 ≪ 5.2.1.20.1. チャット 5.2.1.20.3. 音声生成 ≫

5.2.1.20.2. 文字起こし¶

入力音声ファイルをもとに文字起こしを行うためのタスクです。

5.2.1.20.2.1. 入力値¶

im_transcription <object>
  ├─ input <binary> *
  └─ option <object>
       └─ model <string>

項目名	必須/任意	型	配列/リスト	説明
im_transcription	任意	object	なし	-
input	必須	binary	なし	音声ファイルを指定してください。（mp3ファイルなど）
option	任意	object	なし	-
model	任意	string	なし	モデルを指定してください。（whisperなど）

コラム

input に指定可能なファイル形式や model に指定する値については、各生成AIサービスの仕様を参照してください。

OpenAI:
https://platform.openai.com/docs/api-reference/audio/createTranscription

Azure OpenAI:
https://github.com/MicrosoftDocs/azure-docs/blob/main/articles/ai-services/openai/reference.md#speech-to-text

注意

input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。

（実行環境のサイジング設計や負荷試験など）

5.2.1.20.2.2. 出力値¶

im_transcription <object>
  └─ text <string>

項目名	型	配列/リスト	説明
im_transcription	object	なし	-
text	string	なし	文字起こし結果

目次 ≪ 5.2.1.20.1. チャット 5.2.1.20.3. 音声生成 ≫