無料で音声読み上げ!音声合成ソフトを使ったAudible化の性能比較

ライフハック

こんにちは、電太です。

私達の暮らしの中には、通勤・通学のように耳の空いているスキマ時間が存在しており、このスキマ時間を活用した情報のインプットがQOLの向上につながると考えられます。

この場合、情報は活字ではなく、音声である必要があります。

さらに、音声はAudio Bookのようにあらかじめ用意されている場合もあれば、音声合成技術を使って活字から変換される場合もあります。

この音声合成について、近年では、PC性能の向上、ディープラーニング技術の発展やOSの多機能化によって、品質が格段に良くなってきています。

そこで、無料で利用できる音声合成(読み上げ)ソフトを評価し、ランキング形式で評価結果をまとめました。

こんな人向けの記事です。

  • スキマ時間が多い人
  • スキマ時間を利用してニュース記事やブログなどの情報を音声でインプットしたい人

なにはともあれ、まずはベンチマーク用の文章を準備

ベンチマーク用文章は、青空文庫に収められている秋田 雨雀著 三人の百姓(さんにんのひゃくしょう)より、冒頭の書き出し部分としました。なお、青空文庫には著作権の切れた作品や、著作権者の同意の得られた作品が収録されており、これらの作品はボランティアの方々によって入稿・登録されています。

加えて、架空のニュース記事も作成しました。

ベンチマーク用文章1

ベンチマーク用文章1 原文まま

 昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。
三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名や山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

ベンチマーク用文章2

原文をそのまま引用するだけではあまり面白くないので、通常の字体で表す前半(原文)と、太字で示す後半(前半を基に、OpenAIのGPT-3で作成)からなる文章をベンチマーク用文章2としました。

ベンチマーク用文章2 前半原文、後半GPT-3

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎右衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

作成された文章について、「庭に稲妻の茂み」など意味が通らない箇所はありますが、人がすらすら読める程度に体裁は整っていると思います。

また、聞き慣れない「下駄箱のような小屋」という表現はAI特有のユニークな表現となっており、下駄箱のような「臭い」のする小屋なのか、下駄箱のような「収納」がある小屋なのか、想像力を掻き立てられます。

さらに、ベンチマーク用文章1後半に描写される「魚」に関して、AI作成の文章でも魚釣りとして描写されています。

たまたまかもしれませんが、AIが原文に近い描写をしたという結果はとても興味深いものです。

なお、当ブログはAIによって書かれたものではないため、ユニークな文章表現が少ないことをご承知おきください。

もし、仮にこのようなユニークな表現が散見されるようになった場合、AIへの置き換えが進んでいるものとご理解ください。

ベンチマーク用文章3

架空のニュース記事を作成し、ベンチマーク用文章3としました。

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

読み上げの評価

前述のように情報をスムースにインプットするためには、自然な読み上げがかかせません。

そのため、読み上げの評価は以下の2点としました。

  1. 文章の読みは正確か
  2. イントネーションは自然か

また、参考として音声合成に要した時間も計測します。PCのスペックはCPUがIntel(R) Core(TM) i7-4790 CPU @ 3.60GHz 3.60 GHzで、メモリが16GBになります。

Windows

OS付属機能

ナレータの声はMicrosoft – Ayumiとし、Windows10でファイルに録音しました。

文章1

文章2

文章3

次に読みとイントネーションの間違いを評価します。読み間違いは下線で示しています。

文章1の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。 三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名や山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

文章2の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎右衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

文章3の読み間違い

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

評価

  1. 合成に要した時間:おおよそ2分で、読み上げに要する時間と同じ
  2. 読み間違い:3語
  3. イントネーション間違い:全体的になまったような表現で、間違いは多い
  4. 端末の手動操作が入るため、自動化が難しい

“Open JTalk“

Open JTalkはHMM(隠れマルコフモデル)を用いた音声合成ソフトになります。

バージョンは1.10を使用し、音声ファイルを出力しています。

文章1

文章2

文章3

次に読みとイントネーションの間違いを評価します。読み間違いは下線で示しています。

文章1の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。 三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名や山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

文章2の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

文章3の読み間違い

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

評価

  1. 合成に要した時間:およそ7秒、速度は非常に早い
  2. 読み間違い:2語
  3. イントネーション間違い:全体的になまったような表現で、間違いは多い
  4. その他:
    時折、読み上げが間延びして聞きづらい

“VOICEVOX“

VOICEVOXはディープラーニング(ニューラルネットワーク)を用いた音声合成ソフトになります。

バージョンは0.12.3のCPU版を使用し、声質は「VOICEVOX:玄野武宏」を設定しました。

また、ソフトの音声ファイル出力機能を使用しています。

文章1

文章2

文章3

次に読みとイントネーションの間違いを評価します。読み間違いは下線で、イントネーション間違いは太字で示しています。

文章1の読み間違いイントネーション間違い

、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。 三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名や山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

文章2の読み間違いイントネーション間違い

、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎右衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

文章3の読み間違いイントネーション間違い

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

評価

  1. 合成に要した時間:VOICEVOXの起動を含め1分46秒、時間は遅い
  2. 読み間違い:1語
  3. イントネーション間違い:5語、間違いは少ない

Android

OS付属機能

ユーザー補助のテキスト読み上げを使って、読み上げを行い、ファイルに録音しました。

Androidのバージョンは12になります。

文章1

文章2

文章3

次に読みとイントネーションの間違いを評価します。読み間違いは下線で示しています。

文章1の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。 三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

文章2の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎右衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

文章3の読み間違い

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

評価

  1. 合成に要した時間:おおよそ2分で、読み上げに要する時間と同じ
  2. 読み間違い:2語
  3. イントネーション間違い:3語、かなり自然な発音
  4. 端末の手動操作が入るため、自動化が難しい

iOS

OS付属機能

アクセシビリティの読み上げコンテンツを使って、読み上げを行い、ファイルに録音しました。

文章1

文章2

文章3

次に読みとイントネーションの間違いを評価します。読み間違いは下線で示しています。

文章1の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓は少しばかりの田を耕しながら、その合間に炭を焼いて三里ばかり離れた城下に売りに行くのを仕事にしておりました。 三人の百姓の生れた村というのは、それはそれは淋しい小さな村で、秋になると、山が一面に紅葉になるので、城下の人たちが紅葉を見に来るほか、何の取柄もないような村でありました。しかし百姓たちの村に入るところに大きな河が流れて、その河には、秋になると、岩名や山魚が沢山に泳いでいました。村の人たちは、みんな楽しそうに、元気で働いていました。

文章2の読み間違い

昔、ある北の国の山奥に一つの村がありました。その村に伊作、多助、太郎右衛門という三人の百姓がありました。三人の百姓はおのおのに家族があり、伊作は庭に稲妻の茂みの中に作った下駄箱のような小屋に住んでおり、多助は自分の家族や配下の下賃を払うために、毎日朝早くから池の辺りで魚釣りをしていました。太郎右衛門は、多助と伊作と同じように池の辺りで魚釣りをしていました。

文章3の読み間違い

政府の金融資産安定化会議は23日、金融資産の安定に関する第3次提言をまとめた。30日閉幕した東南アジア・アフリカ会議で新たな宣言が全会一致で採択された。APECは来月の原油生産量を据え置くと発表した。

評価

  1. 合成に要した時間:おおよそ2分で、読み上げに要する時間と同じ
  2. 読み間違い:2語
  3. イントネーション間違い:全体的に片言な表現で、間違いは多い
  4. 端末の手動操作が入るため、自動化が難しい

評価まとめ

読み上げ評価の結果を下の表にまとめます。

読み間違い語数イントネーション間違い語数合成に要した時間自動化
Windows10付属Microsoft – Ayumi3たくさんおおよそ2分x
Open Jtalk2たくさんおよそ7秒o
VOICEVOX:玄野武宏151分46秒o
Android23おおよそ2分x
iOS2たくさんおおよそ2分x

本記事はAudio Book作成のための自然な読み上げを主眼に置いているため、イントネーションの1位はAndroid、読みの1位はVOICEVOX:玄野武宏となります。

Androidは自然な発音で良いのですが、端末の読み上げ機能を使っているため自動化が難しく、作成に手間がかかるのが欠点です。APIを使えば自動化は可能ですが、有料であるため本記事では対象外としました。

対して、VOICEVOXはAPIが用意されていて、作成に手間がかからないため、長期の運用を考えるとこちらを使うのが良いのかもしれません。

正直、この品質のものが無料で使えるというのは驚きで、音声合成の発展に尽力された方々に敬意を表します。

また、今後性能の良いものがリリースされた場合、同じような評価をやってみたいと思います。

タイトルとURLをコピーしました