カラオケ文化をアップグレード! それを支えるAI技術とは?

2020/04/21 Toshiba Clip編集部

この記事の要点は...

  • 身近なカラオケの背後にある、デジタル化の歴史
  • 実在の人物が話しているような、AIによる音声合成
  • AIの音声合成が変える、カラオケの楽しみ方と未来
カラオケ文化をアップグレード! それを支えるAI技術とは?

マイクを片手に、お気に入りの曲を歌う。日本発の文化として世界中で愛されているカラオケ。1970年代に始まったその歴史は、実はデジタル化の歴史でもあった。そして誕生から約半世紀、AI技術を得てカラオケは、さらなる進化を遂げていた。

歌う人のニーズに応えるための進化

1970年代に8トラックテープをメディアとしてスタートしたカラオケは、歌う人のニーズとデジタル技術の進歩に合わせて進化してきた。1980年代には、レーザーディスクといったデジタルメディアの登場により、それまで音楽だけだったカラオケに、映像という新しい魅力が加わる。これにより、カラオケは大衆文化としての地位を確実なものとした。

 

「レーザーディスク1枚に、28曲収録されていました。レーザーディスクを自動で入れ替えることができるオートチェンジャーには144枚のレーザーディスクが入りましたから、最大で4,032曲の楽曲提供が可能でした」

 

株式会社第一興商 専務取締役兼上席執行役員の村井裕一氏が、当時を振り返りながら語った。

 

株式会社第一興商 専務取締役兼上席執行役員 開発本部長兼制作本部管掌 村井 裕一氏

株式会社第一興商 専務取締役兼上席執行役員 開発本部長兼制作本部管掌 村井 裕一氏

しかし、1994年にはレーザーディスクの累積枚数が144枚となる見通しが立ち、それ以上増やせないという問題が出てきた。カラオケの人気はとどまるところを知らず、楽曲追加の限界を超えるため、次の段階を模索しなければならなかった。「もっとたくさんの曲が欲しい。新譜をすぐに歌えるようにして欲しい」といった歌う人の要望に応えるためにも、データ通信による楽曲配信が検討され始めた。

 

「この時の楽曲データ配信システムの構築から東芝さんとの仕事が始まり、今では30年の付き合いです。東芝さんは、確かな技術力に加えて、私たちの実現したいこと・痒いところを分かってくれ、同じゴールに向かって一緒に成長してくれました」(村井氏)

 

1990年代初期のデータ通信は、モデムと音声用の電話回線を使っていたため、通信速度が遅い上、遠方との接続は非常に高額だった。当時の楽曲データは1曲150KB(キロバイト)程度だが、1曲のデータを配信するのに約2分かかっていたという。

 

第一興商と東芝は、こうした問題の解決をともに模索した。そして、通信事業分野の自由化に伴い設立された新規通信事業者と協議の上、通信事業者の局舎内にカラオケ楽曲のデータサーバを設置し、通信事業者の回線に直結して配信するというシステムを開発した。

 

「毎週、数十万台に楽曲データを配信するシステムの構築は難しく、それは、いまでこそ当たり前に使われているデータセンターの走りだったんです」

 

確かな信頼関係を構築し、第一興商によるカラオケのデジタル化に伴走してきた東芝デジタルソリューションズ株式会社の藤田康二氏はそう語る。

 

東芝デジタルソリューションズ株式会社 ICTソリューション事業部 メディア・サービスソリューション営業部 参事 藤田 康二氏

東芝デジタルソリューションズ株式会社 ICTソリューション事業部 メディア・サービスソリューション営業部 参事 藤田 康二氏

楽曲データを保存するハードディスクの容量やセキュリティなど、課題は多かったという。しかし、藤田氏は「ともに新しい価値を創る」という思いで走り抜けた。そして2003年、ブロードバンド対応の通信カラオケへと進化を続けていく。

 

「カラオケを楽しまれる方々のご要望が新しい技術課題となり、その解決に、最新の技術が投入されていきました。東芝は、これからも第一興商様とともに、カラオケのデジタル化をけん引していきたいと考えています」(藤田氏)

 

現在、第一興商の通信カラオケDAMでは、毎月約1,000曲を配信し、総計27万曲がいつでも楽しめるという。そして、カラオケ文化は日本を飛び出し、世界中で楽しまれている世界的文化となった。

 

「我々と一緒にカラオケの景色を変えてくれた。常に東芝さんが寄り添ってくれたことが、今につながっていると思っています」(村井氏)

AI技術を得て、大きく飛躍する新時代のカラオケ

「もっと気持ちよく歌いたい」「もっと快適に楽しみたい」というカラオケに集う人々の思いは止まらない。これまでにも、大きな進化を遂げてきたカラオケ。これ以上に、一体どんな進化をしていくのだろうか。

 

「歌うことの楽しみ、興奮、感動を提供するために、時代に合わせて、カラオケは常に進化し続けなければならないんです」

 

そう語るのは、株式会社第一興商 執行役員 開発本部の関澤武史氏だ。

 

株式会社第一興商 執行役員 開発本部 副本部長兼商品開発部長 関澤 武史氏

株式会社第一興商 執行役員 開発本部 副本部長兼商品開発部長 関澤 武史氏

例えば、音楽の楽しみ方が変わり、音楽を聴くことからライブを楽しむ人々が増えてきた。そういったニーズを受けて、カラオケもライブを意識した空間の再現に注力し、第一興商が展開するLIVE DAM Aiでは、東京ドームや名古屋ドームなどの音響を再現できる臨場感を演出するという。

 

「もう一つの進化は、AI技術による、歌う人と機械とのコミュニケーションの強化です」

 

AI技術がどのように歌う人と機械とのコミュニケーション強化に利用されているのか、最前線でその仕組みを構築した、株式会社第一興商 開発本部の永沼氏が語ってくれた。

 

株式会社第一興商 開発本部 商品開発部 開発一課 チーフ 永沼 宇将氏

株式会社第一興商 開発本部 商品開発部 開発一課 チーフ 永沼 宇将氏

「最新機種では、音声合成を用いたキャラクターが、歌番組の司会者のように次に歌う曲を紹介してくれます。27万曲の楽曲すべてのタイトルを事前に録音することはできませんし、これからも新しい曲が増えますので、音声合成は必須の技術でした」

 

この音声合成には、東芝のコミュニケーションAI、RECAIUS™の音声合成ミドルウェア“ToSpeak™ G3”が使われ、カスタムボイスという技術が生かされている。

 

カスタムボイスでは、合成される声の持ち主が読み上げた数百文規模の文章をAIで解析し、特徴を抽出した音声データベース(DB)を作成する。この音声DBを、話者に共通する特徴をモデル化したデータベース(ベースモデル)と掛け合わせることで、合成される声の持ち主特有の抑揚、リズム、音質などをモデル化した音声合成辞書を作成する。この辞書を基に、読ませたい文章を音声合成エンジンに入力すると、あたかも実在の人物が話しているかのような音声が合成されるのだ。

 

音声合成のプロセス

音声合成のプロセス

「さらに、お客様に楽しんでいただけるように、合成される声の主は、声優の冨永みーなさん、梶裕貴さんと、タレントのIKKOさんの三名になっています」(永沼氏)

 

利用者からは、「カラオケが変わった」という声が届くという。これまで、曲を入力し、歌うという一方向だったカラオケが、機械が曲を紹介するなど受け応えのあるものになったインパクトは大きい。歌う曲を流す機械からパートナーになった通信カラオケには、AIと愛(ai)の両方を込めて、LIVE DAM Aiという名前が付けられた。

 

LIVE DAM Aiの音声操作画面 音声合成で、タレントや有名声優との会話という楽しみがプラスされた

LIVE DAM Aiの音声操作画面
音声合成で、タレントや有名声優との会話という楽しみがプラスされた

音声合成という新しい力を手に入れたカラオケは、次の展開を見せているという。関澤氏は、同社がカラオケの新しい利用法として進める、高齢者向けの健康促進活動に思いを馳せる。

 

「合成音声による健康指導など、様々な活用が期待できます。一方的に操作するだけだったカラオケの機械が、人間の声で応答してくれる。こうしたコミュニケーションが、さらに新しい価値を創ると期待しています。東芝さんには、大きな技術革新だけでなく、きめ細かく要望を叶えてもらってきた。それは、カラオケがこれからも進化し続けるための力となっています」(関澤氏)

 

東芝は、50年以上にわたってAI研究を積み重ねてきた。その成果は、カラオケなどの身近な暮らしだけでなく、140年以上の歴史を誇るモノづくり、そして健康を守るための医療など様々なジャンルに展開されている。AI技術は、これからも東芝が顧客とともに生み出す未来に貢献していくだろう。

Related Contents