利用上の注意点

mocoVoice API を利用する際には、以下の点にご注意ください。

結果の一貫性

mocoVoice API では、同じ音声を送信しても、常に同じ結果になるとは限りません。これは、音声認識エンジンが日々更新されているため、音声認識の精度が向上し、以前とは異なる結果になる場合があるためです。また、mocoVoice 音声認識サーバの負荷状況により、若干の計算量の調整が行われるため、結果が変動する可能性があります。

音声認識は、統計的な確率に基づいて結果を出力します。そのため、様々な種類の音声入力を受け付けるアプリケーションにおいては、結果の一貫性を過度に期待することは難しい場合があります。音声認識の結果として得られるテキストの表記に強く依存しないようにアプリケーションを設計してください。

API レスポンスのレイテンシー

mocoVoice API は、クラウド上で動作するサービスであり、負荷に応じてシステムが自動的にスケールします。そのため、レスポンス時間を一定に保つことを保証することはできません。音声ファイルの長さや音声認識サーバの負荷状況によっては、レスポンスが遅延する場合があります。

音声品質の影響

音声の品質（ノイズの有無、録音環境、話者のアクセントなど）が認識精度に影響を与える可能性があります。クリアな音声で録音されたデータを使用することで、音声認識精度を向上させることができます。

対応フォーマットと制限

mocoVoice API が対応する音声ファイル形式やファイルサイズには制限があります。対応している音声フォーマットおよび制限事項を確認し、適切な形式とサイズのデータを使用してください。

音声対応フォーマット: wav, mp3, m4a, caf, aiff, wma, flac, ogg, aac, speex, opus, amr, awb, webm, mpeg, mpga
動画対応フォーマット: avi, mp4, rmvb, flv, mov, wmv
サンプリング周波数: 8kHz, 16kHz, 22.05kHz, 44.1kHz, 48kHz, 96kHz
チャンネル: モノラル / ステレオ
音声の長さ: 最大3時間まで
ファイルサイズ: 最大3GBまで

書き起こし時間と精度の観点から、wav (モノラル, 16kHz)での入力が推奨されます。

認識対象外の言語やアクセントの対応

mocoVoice API は、日本語を含む複数の言語の音声認識に対応していますが、方言や強いアクセントを含む音声の認識精度は低下する可能性があります。