はじめに

mocoVoice APIは、高速かつ高精度な自動書き起こしを実現する、開発者向けのAI音声認識サービスです。

音声や動画ファイルをAPI経由で送信するだけで、テキストデータを自動生成できます。

主な機能

話者分離会話の中での話者を自動的に識別し、発話単位で誰が話したかを記録します。
用語辞書
専門用語や固有名詞を事前に登録することで、認識精度を向上させることができます。
多様なフォーマット対応
音声ファイル（例：WAV、MP3）および動画ファイル（例：MP4）など、さまざまなメディア形式に対応しています。
高いカスタマイズ性
言語設定、話者数の指定、辞書、フォーマットなど、細かなパラメータをAPIリクエストにより制御可能です。
柔軟な統合
独自のワークフローや業務システム、他のAIサービスとの連携が容易に行えます。

使用例

以下は、mocoVoice APIに動画ファイルを送信した場合の例です。

書き起こしレスポンス例

以下はAPIから返されるJSONレスポンスのサンプルです。

 [
   {
     "text": "おはようございます。本日はお越しいただき、ありがとうございます。",
     "lang": "ja",
     "start": 0.2359374999999999,
     "end": 3.7959375,
     "speaker": "SPEAKER_01"
   },
   {
     "text": "おはようございます。こちらこそ、よろしくお願いします。",
     "lang": "ja",
     "start": 4.954062499999999,
     "end": 8.1940625,
     "speaker": "SPEAKER_00"
   },
   {
     "text": "まずは簡単に自己紹介をお願いできますか?",
     "lang": "ja",
     "start": 8.4540625,
     "end": 11.3140625,
     "speaker": "SPEAKER_01"
   },
   {
     "text": "はい、私は山田花子と申します。大学では経済学を専攻し、卒業後は記者でのキャリアを希望しております。",
     "lang": "ja",
     "start": 12.3278125,
     "end": 19.247812500000002,
     "speaker": "SPEAKER_00"
   }
 ]

※この書き起こし結果は2025年1月5日時点のものであり、利用環境やAPIバージョンによって異なる場合があります。

mocoVoice APIの利用シーン

mocoVoice APIは、次のようなシステムやアプリケーションに組み込むことで、より高度な音声処理を実現できます。

オンライン会議の自動議事録生成
インタビュー収録アプリへのリアルタイム文字起こし連携
動画配信プラットフォームにおける字幕生成自動化
コールセンターの通話内容分析やログ生成

このドキュメントについて

本ページでは、mocoVoice APIの基本的な利用方法、エンドポイントの構成、パラメータ設定、認証の方法、料金体系などを順にご説明します。

APIを活用して業務やサービスの効率化を図りたい開発者・企業担当者の方は、ぜひ本ドキュメントをご活用ください。