# はじめに mocoVoice APIは、高速かつ高精度な自動書き起こしを実現する、開発者向けのAI音声認識サービスです。 音声や動画ファイルをAPI経由で送信するだけで、テキストデータを自動生成できます。mocoVoice版と同じ認識エンジンを活用しつつ、プログラムから柔軟に制御・連携できるのが特長です。 ## 主な機能 - 話者分離 会話の中での話者を自動的に識別し、発話単位で誰が話したかを記録します。 - 用語辞書 専門用語や固有名詞を事前に登録することで、認識精度を向上させることができます。 - 多様なフォーマット対応 音声ファイル(例:WAV、MP3)および動画ファイル(例:MP4)など、さまざまなメディア形式に対応しています。 - 高いカスタマイズ性 言語設定、話者数の指定、辞書、フォーマットなど、細かなパラメータをAPIリクエストにより制御可能です。 - 柔軟な統合 独自のワークフローや業務システム、他のAIサービスとの連携が容易に行えます。 ## 使用例 以下は、mocoVoice APIに動画ファイルを送信した場合の例です。 iframe ### 書き起こしレスポンス例 以下はAPIから返されるJSONレスポンスのサンプルです。 ```json [ { "text": "おはようございます。本日はお越しいただき、ありがとうございます。", "lang": "ja", "start": 0.2359374999999999, "end": 3.7959375, "speaker": "SPEAKER_01" }, { "text": "おはようございます。こちらこそ、よろしくお願いします。", "lang": "ja", "start": 4.954062499999999, "end": 8.1940625, "speaker": "SPEAKER_00" }, { "text": "まずは簡単に自己紹介をお願いできますか?", "lang": "ja", "start": 8.4540625, "end": 11.3140625, "speaker": "SPEAKER_01" }, { "text": "はい、私は山田花子と申します。大学では経済学を専攻し、卒業後は記者でのキャリアを希望しております。", "lang": "ja", "start": 12.3278125, "end": 19.247812500000002, "speaker": "SPEAKER_00" } ] ``` ※この書き起こし結果は2025年1月5日時点のものであり、利用環境やAPIバージョンによって異なる場合があります。 ## mocoVoice APIの利用シーン mocoVoice APIは、次のようなシステムやアプリケーションに組み込むことで、より高度な音声処理を実現できます。 - オンライン会議の自動議事録生成 - インタビュー収録アプリへのリアルタイム文字起こし連携 - 動画配信プラットフォームにおける字幕生成自動化 - コールセンターの通話内容分析やログ生成 ## このドキュメントについて 本ページでは、mocoVoice APIの基本的な利用方法、エンドポイントの構成、パラメータ設定、認証の方法、料金体系などを順にご説明します。 APIを活用して業務やサービスの効率化を図りたい開発者・企業担当者の方は、ぜひ本ドキュメントをご活用ください。