intra-mart Accel Platform IM-LogicDesigner仕様書 第19版 2021-12-01

5.2.1.14.11. 音声からテキストの生成

IBM Watson Speech to Textサービスで、送信した音声データから会話を抽出し、テキストデータとして変換を行うタスクです。

入力値、出力値に関する詳細は、以下のAPIドキュメントを参照してください。

5.2.1.14.11.1. プロパティ

項目名 必須/任意 初期値 説明
エラーハンドリング 任意 flag false エラー発生時に処理を継続する場合は、チェックボックスをオンにします。

5.2.1.14.11.2. 入力値

im_watsonSttPostRecognize <object>
  ├─ body <binary> *
  ├─ contentType <string> *
  ├─ continuous <boolean>
  ├─ customizationId <string>
  ├─ inactivityTimeout <integer>
  ├─ keywords <string[]>
  ├─ keywordsThreshold <float>
  ├─ maxAlternatives <integer>
  ├─ model <string>
  ├─ profanityFilter <boolean>
  ├─ smartFormatting <boolean>
  ├─ speakerLabels <boolean>
  ├─ timestamps <boolean>
  ├─ wordAlternativesThreshold <float>
  └─ wordConfidence <boolean>
項目名 必須/任意 配列/リスト 説明
im_watsonSttPostRecognize 任意 object なし  
body 必須 binary なし 音声データ
contentType 必須 string なし 音声データのMIMEタイプ
continuous 任意 boolean なし 最初の文のみ取得する場合は false、音声全体を解析する場合は true
customizationId 任意 string なし カスタム音声モデルのGUID
inactivityTimeout 任意 integer なし 無音検出する時間(単位:秒)
keywords 任意 string リスト スポットするキーワードの一覧
keywordsThreshold 任意 float なし キーワードをスポットする閾値
maxAlternatives 任意 integer なし 認識される文の候補(alternatives)を出力する最大件数
model 任意 string なし 認識対象の音声モデル
profanityFilter 任意 boolean なし NGワードのフィルタリングをしない場合は false
smartFormatting 任意 boolean なし 日付、時刻、数値などを簡易的にフォーマットする場合は true
speakerLabels 任意 boolean なし 話し手が複数人数の場合に、発言者の情報(speakerLabels)を出力する場合は true
timestamps 任意 boolean なし 単語ごとの発声時間を出力する場合は true
wordAlternativesThreshold 任意 float なし
代替の単語を採用する閾値(0~1)
指定した場合は、代替の単語情報(wordAlternatives)が出力されます。
wordConfidence 任意 boolean なし 単語ごとの信頼度(wordConfidence)を出力する場合は true

5.2.1.14.11.3. 出力値

im_watsonSttPostRecognize <object>
  ├─ resultIndex <integer>
  ├─ results <object[]>
  │    ├─ alternatives <object[]>
  │    │    ├─ confidence <bigdecimal>
  │    │    ├─ timestamps <object[]>
  │    │    │    ├─ endTime <bigdecimal>
  │    │    │    ├─ startTime <bigdecimal>
  │    │    │    └─ word <string>
  │    │    ├─ transcript <string>
  │    │    └─ wordConfidence <object[]>
  │    │          ├─ confidence <bigdecimal>
  │    │          └─ word <string>
  │    ├─ flagFinal <boolean>
  │    └─ wordAlternatives <object[]>
  │          ├─ alternatives <object[]>
  │          │    ├─ confidence <bigdecimal>
  │          │    └─ word <string>
  │          ├─ endTime <bigdecimal>
  │          └─ startTime <bigdecimal>
  ├─ speakerLabels <object[]>
  │    ├─ confidence <bigdecimal>
  │    ├─ flagFinal <boolean>
  │    ├─ from <bigdecimal>
  │    ├─ speaker <integer>
  │    └─ to <bigdecimal>
  └─ warnings <string[]>
項目名 配列/リスト 説明
im_watsonSttPostRecognize object なし  
resultIndex integer なし 解析結果一覧の開始点を示すインデックス
results object リスト 解析結果一覧
alternatives object リスト 認識される文の候補
confidence bigdecimal なし 信頼度(0~1)
timestamps object リスト 単語ごとの時間情報
endTime bigdecimal なし 終了時間(単位:秒)
startTime bigdecimal なし 開始時間(単位:秒)
word string なし 単語
transcript string なし 認識された文
wordConfidence object リスト 単語ごとの信頼度
flagFinal boolean なし 最後のデータである場合は true
wordAlternatives object リスト 代替の単語情報
speakerLabels object リスト 発言者の情報
from bigdecimal なし 開始時間(単位:秒)
speaker integer なし 発言者の番号
to bigdecimal なし 終了時間(単位:秒)
warnings string リスト 警告メッセージ一覧