はじめに

mocoVoice APIは、高速かつ高精度な自動書き起こしを実現する、開発者向けのAI音声認識サービスです。

音声や動画ファイルをAPI経由で送信するだけで、テキストデータを自動生成できます。mocoVoice Web版と同じ認識エンジンを活用しつつ、プログラムから柔軟に制御・連携できるのが特長です。

主な機能

  • 話者分離 会話の中での話者を自動的に識別し、発話単位で誰が話したかを記録します。

  • 用語辞書
    専門用語や固有名詞を事前に登録することで、認識精度を向上させることができます。

  • 多様なフォーマット対応
    音声ファイル(例:WAV、MP3)および動画ファイル(例:MP4)など、さまざまなメディア形式に対応しています。

  • 高いカスタマイズ性
    言語設定、話者数の指定、辞書、フォーマットなど、細かなパラメータをAPIリクエストにより制御可能です。

  • 柔軟な統合
    独自のワークフローや業務システム、他のAIサービスとの連携が容易に行えます。

使用例

以下は、mocoVoice APIに動画ファイルを送信した場合の例です。

書き起こしレスポンス例

以下はAPIから返されるJSONレスポンスのサンプルです。

 [
   {
     "text": "おはようございます。本日はお越しいただき、ありがとうございます。",
     "lang": "ja",
     "start": 0.2359374999999999,
     "end": 3.7959375,
     "speaker": "SPEAKER_01"
   },
   {
     "text": "おはようございます。こちらこそ、よろしくお願いします。",
     "lang": "ja",
     "start": 4.954062499999999,
     "end": 8.1940625,
     "speaker": "SPEAKER_00"
   },
   {
     "text": "まずは簡単に自己紹介をお願いできますか?",
     "lang": "ja",
     "start": 8.4540625,
     "end": 11.3140625,
     "speaker": "SPEAKER_01"
   },
   {
     "text": "はい、私は山田花子と申します。大学では経済学を専攻し、卒業後は記者でのキャリアを希望しております。",
     "lang": "ja",
     "start": 12.3278125,
     "end": 19.247812500000002,
     "speaker": "SPEAKER_00"
   }
 ]

※この書き起こし結果は2025年1月5日時点のものであり、利用環境やAPIバージョンによって異なる場合があります。

mocoVoice APIの利用シーン

mocoVoice APIは、次のようなシステムやアプリケーションに組み込むことで、より高度な音声処理を実現できます。

  • オンライン会議の自動議事録生成
  • インタビュー収録アプリへのリアルタイム文字起こし連携
  • 動画配信プラットフォームにおける字幕生成自動化
  • コールセンターの通話内容分析やログ生成

このドキュメントについて

本ページでは、mocoVoice APIの基本的な利用方法、エンドポイントの構成、パラメータ設定、認証の方法、料金体系などを順にご説明します。

APIを活用して業務やサービスの効率化を図りたい開発者・企業担当者の方は、ぜひ本ドキュメントをご活用ください。