録音の転写アクション

録音の転写アクション

入力

フィールド	説明
ファイルの内容	転写するファイルの内容を提供します。サポートされている形式は、mp3、mp4、mpeg、mpga、m4a、wav、またはwebmです。
ファイルの種類	転写する入力のファイルの種類を選択します。
プロンプト	モデルのスタイルをガイドするためのオプションのテキスト、または前のオーディオセグメントを続けるためのテキストです。転写する際にモデルに追加の文脈を提供し、特定の単語やフレーズの省略、含めるべきか、書くべきかを指定するのに使用できます。詳細はこちらをご覧ください。プロンプトは英語であり、UTF-8互換である必要があります。
温度	通常、値0を設定することをお勧めします。補完のランダム性を制御するために、0から2の値を設定できます。値が高いほど出力はよりランダムになり、値が低いほどより焦点を絞った決定的な出力になります。このオプションまたはtop pのいずれかを使用することをお勧めしますが、両方を使用することはお勧めしません。

出力

出力は、転写されたテキストを含むデータピルです。これを直接他のアクションで使用するか、テキストベースのOpenAIモデルに送信してさらなる処理を行うことができます。

ENDPOINT CAPABILITIES

このエンドポイントは、他の言語からのテキストの転写にも役立つことが観察されています。たとえば、入力言語が日本語の場合、転写されたテキストも日本語です。これはエンドポイントの未公開の機能のようです。ベータ版のため、この機能を重要なワークフローの一部として活用することはお勧めしません。なぜなら、その動作が変更される可能性があるからです。

Last updated:

録音の転写アクション ​

入力 ​

出力 ​

録音の転写アクション

入力

出力