経営ハッカー | 「経営 × テクノロジー」の最先端を切り拓くメディア
2021年08月12日(木)

株式会社エーアイ吉田 大介社長に聞く~利用用途が無限に広がる音声合成テクノロジーの可能性

経営ハッカー編集部
株式会社エーアイ吉田 大介社長に聞く~利用用途が無限に広がる音声合成テクノロジーの可能性

技術立国を標榜するわが国では、産官学で基礎研究に巨額の資金を投じ、知的資産の積み上げを行ってきた。しかし、その研究が実際に社会実装に役立っているかというと、必ずしもそうではない。多くの研究が、成果の芽が出ないまま、研究資金を打ち切られていく。吉田大介氏は、お蔵入りの危機に瀕していた音声合成テクノロジーを自ら引き継ぎ、この技術を担いで株式会社エーアイを創業した。彼が、音声合成技術に巡り合った1990年代では、ロボットが人間と同じ声を発するなどとはほとんどの人が信じていなかったという。絶対にあきらめないという信念で、事業を継続した結果、株式会社エーアイはついに上場を果たし(東証マザーズ:4388)、音声合成技術のリーディングカンパニーとして認知されつつある。今回、音声合成技術が日の目を見るまでに導いたプロセスや、上場後の事業展開について吉田社長に聞いた。

 

創業経緯~音声合成技術との出会い~

―まず、創業の経緯から教えてください。

会社を創業するに至った大きなきっかけは、前職、株式会社 国際電気通信基礎技術研究所(以下ATR)での経験でした。ATRは、電気通信分野における独創的な基礎研究を、産官学で広く協力して行うために設立された会社です。もともとは、1986年に入社したTIS株式会社で働いていた頃、ATRの創業メンバーの一人から、「ATRの研究成果を基礎研究で終わらせるのではなく、世に問い広げていきたい。研究成果は生ものなので、放っておくとすぐに陳腐化してしまう。是非一緒にそれをカタチにしていってほしい」という熱い言葉をかけられました。お世話になった方だったし、ATRの活動自体には非常に興味を持っていたので、良い機会ととらえ、挑戦をしてみようということでATRに参画しました。そこで、様々な研究成果の資産がたまっている中から、音声技術コーパス:人の声を再現するという技術に興味を持ちました。あまりにおもしろくて、この分野に特化してサービスを生み出していく側に回ってみたいと考え、そのために設立したのが、株式会社エーアイです。それが2003年のことでした。

―普通の民間企業とは少し毛色の違う、ATRの設立経緯について教えて頂けますでしょうか。

ATRは、1986年に設立された半官半民の基礎研究をする研究所です。当時、基盤技術センターという制度がありました。通常国の研究所であれば、国家予算をもとに研究しますが、ATRは株式会社として、国や民間企業が互いに出資をする形で発足しました。毎年大きな額がATRに投入され、研究によって蓄積されていく知財を、広く世の中に提供することによって収益化、そこで得た資金を用いて研究していくというスキームで走り出しました。ここで研究をしていた研究員の方々は、大手民間企業からの出向者で構成され、海外の方も多くいるという非常に開かれた研究所でした。ところが、いざ走り出してみると、アウトプットした研究成果がなかなか売れないという現実に直面したわけです。

―そこで、ATRに参画されたと。

研究成果が売れなかったのは、時代より早すぎたのと、技術が未完成だったことが主な要因でした。そこで私は、技術そのものを販売するのではなく、製品を作ってそれを販売しようと考えたのです。そこで、会社に対し、ATRを研究所に留めるのではなく、事業部隊を作りませんかという企画を上申しました。企画案はそのまま通り、音声合成が行えるソフトウェア開発キット / Software Development Kit(SDK)を作りました。ところが、それもまた、なかなか売れなかった。

誰に向けて、どういう形にすれば売れるのかを考えるだけでは埒が明かず、いろいろな先に調査に赴きました。最初は電話系のサービス事業者にヒアリングをかけ、次は銀行へ…と足を動かしていきました。そうすると、「人の名前と数字と住所がきれいに言えると使える」ことが判明しました。最初に音声を録音して、辞書を作成すれば、すごくリアルな人の声を合成できる可能性が十分あるということが分かり、すぐにプロトタイプを開発し、再び営業をかけました。すると、ようやく2つのSIer会社から採用したいという声を頂戴できたのです。

しかし、そのタイミングで、社として注力事業の見直しが入り、音声合成技術に関する事業から撤退することになってしまったのです。それが、2002年の終わりごろでした。どうしようかと悩んだ末、この音声合成技術の可能性を捨てきれず、自ら会社を興すことにしたのです。ATRは、私の挑戦を後押ししてくださり、今では当社の株主として活動を支えてくださっています。

音声合成技術のリーディングカンパニーとしての成長戦略

―音声合成技術とはどのようなテクノロジーなのでしょうか。

音声合成技術とは、「テキスト情報を音声に変換する技術」です。もう少し説明すると、対外的に伝えたいメッセージをテキストに打ち込むと、思い思いの声色で音声として発することができます。当社は、2003年の設立以来、この音声合成に特化して事業を展開してきました。音声合成分野における研究開発の歴史は古く、1859年頃までに遡ります。以前から音声合成を知っている方にとっては、機械音、いわゆる「ロボットボイス」の印象を強く持っている方が多いかと思います。それに対して、当社が提供している音声合成エンジンは、機械音ではなく、人の声で合成する「コーパスベース音声合成技術」を基に、独自に研究開発を行った音声合成エンジン、「AITalk®(エーアイトーク)」です。設立当初から、現在までに、様々な仮説検証を繰り返し、現在では、「AITalk®5.0」まで進化してまいりました。

我々は、これを次世代型音声合成エンジンと呼んでいます。従来の「コーパスベース音声合成方式」と、最新の深層学習技術を活用した「DNN音声合成方式」を、利用シーンに合わせて選択することで、さらなる人間らしさ・豊かな音声を追求した高品質音声合成エンジン構成へとレベルアップしてきました。

―2003年の設立以降、どのようなシーンでAITalk®が活用されていったのでしょうか。

ご多分にもれずベンチャー企業だったので、最初は財務的に耐え忍びつつ、キャッシュが続いている間に頑張って用途開発をしていく必要がありました。ところが、お客様に「これどうですか?」と持って行っても、なかなかイメージを持っていただけない時代が続きました。特に、最初の7~8年は厳しい状況が続き、営業先で、AIというキーワードを発すると、「なんじゃそれは?」という拒否反応を受けました。やっとのことで、デモ版サービスをご提供すると、「いいね、それ。おもしろいね」という言葉を頂戴できるようになりました。ところが、そこからが先に進まない。ようやくここ4~5年で、導入していただくケースが急激に増えてきたという状況です。

―急激にサービス導入の流れが来た要因はどのあたりにあったのでしょうか。

今もベースになっている防災用無線への導入が発端でした。ここに入り始めたのが大きいです。正直、一生懸命営業しました。最初はどういうルートで入っていくかということも知らなかったので、関東近辺の自治体100ケ所くらいに対して、ヒアリングかけていきました。ヒアリングを通じて判明したことが、我々がパッケージとして提供しようと考えていたAITalk®は、自治体にとっては、活用されている防災製品の1部品という位置づけだということでした。調べてみると、防災製品を製造しているメーカーの内、製品全体を作っていた会社は、7~8社程度だったのです。そこに目を付け、AITalk®という一部品を組み込んでみないかというアプローチをしてみると、皆さん導入していただけました。今では、防災製品のリプレイスや、新規設置などが入札で行われていますが、どこが入札されても当社のエンジンが入る状況になっています。

―初めて導入されたのはどの自治体だったのでしょうか。

最初に採用していただいたのは、三鷹市でした。年に一度、9月1日に防災の日がありますが、市では、毎度、防災行政無線のテスト運営が実施されます。その際、人が話すアナウンスと、音声合成ボイスとを比較し、導入するかどうかを決めようというお話が上がったのです。公正を期するため、人の声と、当社の提供する音声合成ボイスを交互に流し、聞き取れなかったら電話がかかってくるという検証方法を取りました。果たして、この人間の声対音声合成ボイスの息詰まる対決テストは当社に軍配が上がりました。

「これは、やっぱりいけるぞ!」と胸が高鳴ったのを今でも覚えています。その際、もう2社からも音声合成ボイスの提案があったのですが、その関門も突破し弊社を採用いただくことができました。そして自治体単位で採用していただくことが増えていった結果、最終的には、国が一斉に音声を流す全国瞬時警報システム(J-ALEART)にも、弊社の音声合成技術を採用いただくことができました。

―その他の音声合成技術の活用事例についても教えてください。

特に最近では、教材に音声をつけたり、動画にナレーションをつけたりするケースが増えてきています。それに対して当社では、高品質なナレーション音声をつけることができる「AITalk® 声の職人」というサービスを開発しました。一番初めに声の職人が導入されたのは10年前のこと。ある大手企業の子会社がeラーニングとして社内教育で使いたいというニーズから始まりました。

当時はeラーニングが普及していない時代でしたが、これが今、新型コロナウイルス感染症拡大の影響を受け、需要が一挙に増えてきています。

 

 

導入されている身近な例では、鉄道などの交通機関のガイダンスなどで耳にする機会も多いかと思います。車を運転される方でしたら、カーナビの音声もそうですし、今後はMaas などの導入に際しては必須のツールになっていきます。

さらに、ロボット対人のコミュニケーションの場面でも数多くの場面で導入が期待されています。現に、ヒューマノイド型のロボット「マツコロイド」にも弊社の技術が活用されています。マツコ・デラックス氏本人の音声を短時間で収録し、音声合成用のオリジナル音声辞書「AITalk® CustomVoice®」を作成することによって、あたかもマツコ・デラックス氏本人がしゃべっているような声で、「マツコロイド」に発言させることが可能になりました。まさに、AITalk®という言葉を体現するような事例となりました。

こうして、音声合成というテクノロジーへの認知度は徐々に広がってきたのですが、さらに自在に音声を作ることができる「マツコロイド」のようなカスタマイズ音声が知れ渡っていくと、より一層サービスが拡大していくでしょう。

用途の範囲は極めて広いため、当社としては様々な可能性を取り込んでいきます。大きな事業の柱を何本か作るというよりも、1つが1億円の事業を100個、200個と創るといった形で、大企業が参入して来れない、ニッチで幅広い裾野を、テクノロジーの強みを生かして開拓していく考えです。

―やはりBtoBのサービスが主軸となっているのでしょうか。

現在は、9割がたがB to Bのお取引となっているのですが、残り1割はB to C向けのサービスを展開しております。今後は、その構成比を8:2へと変革していくためにかなり力をいれています。これまでに提供してきているコンシューマー向けのサービスでいうと、AHS社のVOICEROID®というパッケージソフトがあります。このサービスは、人気アニメやキャラクター、声優等の音声辞書を作成し、音声ファイル作成ソフト(声の職人)をOEMで提供しているサービスです。このソフトを活用すると、VOCALOID®というキャラクターと同じ声で、テキストを読み上げてくれるためキャラクターのファンからの多くの人気を集めています。特に最近のYouTuberの激増により、個人向けのサービスにも勢いが出てきました。

上場とグローバル展開への可能性

―上場の狙いと効果は? 

創業から上場までは、採用では非常に苦労しました。一番わかりやすい事例でいうと、本人はうちに来たいのに親御さんが反対するというケースです。中途採用の場合は、奥さんが反対するのですね。こういった場面を何度も経験してきました。この課題を解決したかったのです。

実際に、上場してみると効果は抜群でした。優秀な方がかなり集まってきています。上場という手段を通じて、少しでも弊社に入社したいという方、そしてその周囲の方に安心感を持っていただけるというのが、最大の狙いでしたから。

財務的には、研究開発型の企業であるため、上場前から2年分の運転資金はキャッシュで持つ、という方針を決めて実行していたので心配はありませんでした。ただ、対外的な見え方として信頼度が格段に上がったことは大きなメリットでしたね。

―今後の海外展開の方策について教えてください。

現在、海外ベンダーと協業して多言語対応に力をいれています。今や、40言語、54方言、123話者のラインナップをご用意し、世界の言語をAITalk®で音声化することができます。また、数年前から、日本語のAITalk®を使いたいと言ってくれた、NASDAQ上場企業、Cerence社とのライセンス契約を締結し、自動車メーカーに向けた同社のCerence TTS(多言語音声合成エンジン)にAITalk®が搭載されることとなりました。

このように、海外の多言語音声合成エンジン搭載サービスにもAITalk®を導入していただき、日本国内市場の展開を支援する形での業務連携を進めて行きます。米国のみならず、ヨーロッパ企業も対象に加えて推進していこうと考えています。将来的には、東南アジアの言語による音声合成サービスは弊社が作りたいと考えています。タイ・ベトナム・インドネシア・マレーシアなどの市場を開拓していきたいです。

人の声の温かみで世界平和を!

―今後創っていきたい世界について教えてください。

自分の声を、50文章くらいの少ない数で読みあげると、スマートフォンの中に声が搭載されるというような状態が理想です。例えば、孫からのメールは孫の声で読み上げてくれるといった、声でやり取りする文化を作ることができれば良いなと考えております。

また、一人暮らしをする若者も多い中で、家族や友達と会話せずに、メールやチャットでのやりとりをする人が増えてきています。そんな中で、チャットのやり取りを、送り主の声で読み上げてくれるとおもしろいなと思います。ゆくゆくは、日本だけではなく、世界全体として人の声の温かみを、いろいろなシーンで感じ取れる世の中を創り上げ、平和な世界の実現に少しでも貢献していきたいと考えています。

―吉田社長の経営哲学について教えてください。

絶対あきらめないということに尽きます。正直最初の5~6年はきつい時期がありました。しかし、会社が潰れると考えたことは一切ありませんでした。そんなことより、がんばるんだという気持ちが強かったのです。人生においては、仕事をしている時間が一日で一番長いわけです。とくに創業期は仕事しかしていない状況でした。毎日何時間働いているのかをなぜか日記に残していたのですが、後でカウントしてみると、年間で、3,000時間を超えていたのです。しんどさはありましたが、つらくはありませんでした。私は、一日でいちばん長い、仕事の時間をいかに楽しくするかということを常に意識しています。『論語』で、「之を知る者は、之を好む者に如かず。之を好む者は、之を楽しむ者に如かず。」という言葉があるように、楽しんだものがちだと無理やりにでも思ってやっていました。みんな、そういう気持ちで仕事ができれば会社の雰囲気もよくなるではないかと思います。

「うちは雰囲気がよい」とよく社員からの声を耳にしますし、実際私もそう思います。IT業界での仕事は、パソコンがさえあったらできるため、ついつい納期に追われて徹夜をしてしまいがちです。ところが、みんなが徹夜して作成したプログラムは、動かして見るとバグだらけであり、かえって消耗しきってしまいます。

この点、毎日決まった時間でコツコツと仕事したほうが良い製品ができるのです。しかし、受託開発ではそうも言っておれないことが多いのが事実です。だからこそ、当社は創業当初からシステム開発の一部を受託開発する依頼は一切受けないという方針を貫いてきました。今ではようやく、そのスタイルが実ってきて、平均残業時間10時間くらいとなっています。とはいえ、本当にプログラミングが好きな人は、休みの日も趣味で業務とは関係ないコードを書いていたり、ゲームを作っていたりしているので、それはそれで否定するものではないことです。もっともっと楽しく。世の中に価値をもたらしていく、そんな会社であり続けたいと思います。

<プロフィール>

吉田大介(よしだ・だいすけ)

1977年 株式会社大真空入社
1980年 株式会社東洋ハイテック入社
1986年 株式会社東洋情報システム(現TIS株式会社)入社
1999年 NTTアドバンストテクノロジ株式会社入社
2000年 株式会社国際電気通信基礎技術研究所入社
2003年 当社設立代表取締役社長就任(現任)

株式会社エーアイ
AI, Inc.
https://www.ai-j.jp/

事業内容:音声合成エンジン及び音声合成に関連するソリューションの提供

所在地:
本社
〒113-0024 東京都文京区西片1-15-15
KDX春日ビル10F

開発センター
〒619-0237 京都府相楽郡精華町光台2-2-2
株式会社国際電気通信基礎技術研究所(ATR)内

設立日:平成15年4月1日
資本金:151,481,320円 (資本準備金 121,280,000円)2021年2月現在

    関連する事例記事

    • 資本金・資本準備金・資本余剰金の違いとそれぞれの役割を徹底解説
      インタビュー・コラム2023年02月28日経営ハッカー編集部

      衆議院議員・小林史明氏×freee佐々木大輔CEO 企業のデジタル化実現のために国が描く未来とは?

    • 資本金・資本準備金・資本余剰金の違いとそれぞれの役割を徹底解説
      インタビュー・コラム2022年10月24日経営ハッカー編集部

      仕事が・ビジネスが、はかどる。最新鋭スキャナー「ScanSnap iX1600」の持てる強みとインパクト

    • 資本金・資本準備金・資本余剰金の違いとそれぞれの役割を徹底解説
      インタビュー・コラム2022年08月30日経営ハッカー編集部

      ギークス佐久間大輔取締役、佐々木一成SDGsアンバサダーに聞く~フリーランスと共に築くESG経営とは?

    • 資本金・資本準備金・資本余剰金の違いとそれぞれの役割を徹底解説
      インタビュー・コラム2022年08月28日経営ハッカー編集部

      サイバー・バズ髙村彰典社長に聞く~コミュニケーションが変える世界、SNSの可能性とは?

    • 資本金・資本準備金・資本余剰金の違いとそれぞれの役割を徹底解説
      インタビュー・コラム2022年08月05日経営ハッカー編集部

      バックオフィスをどう評価する? 経理をやる気にする「目標設定」と「評価基準」の作り方

    関連記事一覧