はじめに
mocoVoice APIは、高速かつ高精度な自動書き起こしを実現する、開発者向けのAI音声認識サービスです。
音声や動画ファイルをAPI経由で送信するだけで、テキストデータを自動生成できます。mocoVoice Web版と同じ認識エンジンを活用しつつ、プログラムから柔軟に制御・連携できるのが特長です。
主な機能
話者分離 会話の中での話者を自動的に識別し、発話単位で誰が話したかを記録します。
用語辞書
専門用語や固有名詞を事前に登録することで、認識精度を向上させることができます。多様なフォーマット対応
音声ファイル(例:WAV、MP3)および動画ファイル(例:MP4)など、さまざまなメディア形式に対応しています。高いカスタマイズ性
言語設定、話者数の指定、辞書、フォーマットなど、細かなパラメータをAPIリクエストにより制御可能です。柔軟な統合
独自のワークフローや業務システム、他のAIサービスとの連携が容易に行えます。
使用例
以下は、mocoVoice APIに動画ファイルを送信した場合の例です。
書き起こしレスポンス例
以下はAPIから返されるJSONレスポンスのサンプルです。
[
{
"text": "おはようございます。本日はお越しいただき、ありがとうございます。",
"lang": "ja",
"start": 0.2359374999999999,
"end": 3.7959375,
"speaker": "SPEAKER_01"
},
{
"text": "おはようございます。こちらこそ、よろしくお願いします。",
"lang": "ja",
"start": 4.954062499999999,
"end": 8.1940625,
"speaker": "SPEAKER_00"
},
{
"text": "まずは簡単に自己紹介をお願いできますか?",
"lang": "ja",
"start": 8.4540625,
"end": 11.3140625,
"speaker": "SPEAKER_01"
},
{
"text": "はい、私は山田花子と申します。大学では経済学を専攻し、卒業後は記者でのキャリアを希望しております。",
"lang": "ja",
"start": 12.3278125,
"end": 19.247812500000002,
"speaker": "SPEAKER_00"
}
]
※この書き起こし結果は2025年1月5日時点のものであり、利用環境やAPIバージョンによって異なる場合があります。
mocoVoice APIの利用シーン
mocoVoice APIは、次のようなシステムやアプリケーションに組み込むことで、より高度な音声処理を実現できます。
- オンライン会議の自動議事録生成
- インタビュー収録アプリへのリアルタイム文字起こし連携
- 動画配信プラットフォームにおける字幕生成自動化
- コールセンターの通話内容分析やログ生成
このドキュメントについて
本ページでは、mocoVoice APIの基本的な利用方法、エンドポイントの構成、パラメータ設定、認証の方法、料金体系などを順にご説明します。
APIを活用して業務やサービスの効率化を図りたい開発者・企業担当者の方は、ぜひ本ドキュメントをご活用ください。