text to speech 人工音声、誰の英語が自然?

text to speechと呼ばれる、自動読み上げ。かなり進化してきました。2019年の今、どんな機能が使えるのでしょうか。ウェブサービスやアプリで利用できるように公開されているものとして、主に3種類あります。聴き比べてみました。

これからご紹介する3つはクラウド上にあるサービスですが、それとは違ってすぐに手軽に使えるのがMacに内蔵のtext to speechです。MacのSystem PreferencesからAcceiblity → Speechで起動できます。これは単に読み上げてくれているという感じですが、ウェブの検索結果などでもいつでもすぐに読んでくれるし、速度が調整できるので手早く情報を「自分で読まなくても聞く」ことができて、視覚的に取り入れるよりは耳から聞いて情報を得たいという方にはとても便利な機能です。

 

さて、本題に戻って、クラウド上で使えるサービス3種。

Amazon Polly: 使用するにはAWS Amazon Web Servicesへの登録が必要です。音声のダウンロードもできます。また、登録せずにAmazon Pollyの機能を試せるウェブサイトがこちら

そして大手2社、Microsoft AzureとGoogle Cloudはこちらから聴き比べてみてください。

azure.microsoft.com

 
3つ比べてみていかがでしたか?私はGoogleが一番聞きやすいと感じました。
タグを入力することで、二人に会話をさせたり、途中で休ませたり、強調のために声を上げたりといった指定ができます。操作性としては素人にも十分使えるレベルです。
日本語はまだまだという感じがしますが、英語はかなりのものですね。