TOP
Technology
ほしい音声を思いのままに「声デザイン」技術

ほしい音声を思いのままに「声デザイン」技術

印刷する

2016/06/29　Toshiba Clip編集部

この記事の要点は...

必要な声色を簡単に合成できる最新技術
GUIで直感的な操作が可能
2016年度中の実用化を目指す

カーナビやスマートフォン、エレベーターなど、機械による自動音声案内は私たちの日常に溶け込んだ光景となっている。それを支えるのは「音声合成」と呼ばれる、任意のテキストを自然に読み上げる技術だ。

音声合成の技術の進化はめざましく、より自然で人の声に近い音声を合成できるようになっている。さらに、話者の声から特徴をつかみ、その話者によく似た声を合成できる「似声」作成技術や、喜び・怒り・哀しみなどを表現できる感情制御機能の実用化も進んでいる。

東芝では、カーナビなどに組み込まれた音声合成ソフトの分野で長年トップシェアを維持している。その技術力を活かし、多様な音声を低コスト・短期間で簡単に作成できる「声デザイン」技術を開発。パソコンなどで直感的に操作することができ、これまでは数日かかっていた作業が数分でできるようになった。

直感的な操作を可能にした２つの工夫

「声デザインの最大の魅力は、ほしい声を、誰でも簡単につくりだせることです。音声合成は、教材や書籍の音声化、機器の操作ガイドなど様々な形で利用されていますが、これまでは限られた声の選択肢しかありませんでした。『本当はもう少し明るい声がよいのだけど…』といった要望に応えきれない場面もあったのです」

声デザインの生みの親である鈴木優氏。東芝インダストリICTソリューション社で商品企画を担当している。

本システムでは性別、年齢、明るさなどの声の特徴を示す７つの項目の数値をグラフ上で操作することで、数万種類以上の音声を簡単につくりだせる。画面には、グラフィカル・ユーザー・インターフェース（GUI）を取り入れており、直感的な操作を実現した。

多様な声を自在に作成できる、東芝の声デザイン技術。
この動画は2016年3月7日に公開されたものです。

例えば、若い女性の声をつくりたい時には、まず、キャラクターのアイコンからイメージに近いものを選ぶ。ベースになる音声を選び、それからグラフ上での操作にうつる。
「音声のイメージは合っているが、もう少し変えたい」という場合は、先述のグラフでカーソル位置を操作することで、即座に調整できる。これまでは、声優による再録が必要なケースもあり、多くの時間やコストがかかっていたが、本システムを使えば、低コストで簡単にイメージ通りの音声をつくることが可能になる。

直感的な操作を実現した背景にはどのような工夫があったのだろうか。開発チームを率いる森田眞弘氏は、声の特徴をスコア化したことがポイントになったと語る。

「直感的な操作を可能にするためには、その人が抱いている印象の通りに音声を変化させることが重要になってきます。そのためには声の特徴を示す形容詞とその度合を共有する必要がありました。
私たちはまず、声の特徴を表わす言葉を選定するために、統計処理によって代表的な形容詞を抽出しました。次に、選択した言葉を評価軸にした主観評価を行い、その結果からそれぞれの声の特徴を表すスコアを算出しました。さらに、スコア化された声のデータを分析することで、スコアと声の特徴の関係を統計的にモデル化しました。こうして作りあげた統計モデルを基に、あるスコアを与えると、イメージ通りの特徴を持つ音声が合成できるようになりました。」

入社以来、音声合成一筋という森田氏。学生時代は音声によって金魚の脳神経のつながりが強まり逃避行動パターンが変化することを明らかにするユニークな研究をしていた。

声デザインが生み出す新たなクリエイティブの可能性

東芝における音声合成技術は、1970年代に研究開発センターにおいて研究を開始して以降、脈々とその技術を繋いできた歴史がある。1990年代には、当時まだ本格的な実用化に至っていなかった技術を、大きく進化させ、現在のような自然な声をつくる技術の基盤をつくり上げた。これにより音声合成技術がカーナビなどに使用されるようになった。そして技術はさらなる進化を遂げ、音声合成をさらに身近に使いやすくする、この声デザインが生まれたのだ。

「CGやムービー、音楽、写真といった分野では、様々なソフトの登場で個人の創造性を発揮できる時代が来ています。しかし、音声の分野ではまだナレーターによる録音が必要です。例えば、CG映像の制作。映像自体はひとりで制作できてしまうのに、完成に向けて声を吹き込むには声優・ナレーターの力に頼らざるを得ないのです。声デザインの登場により、本当の意味で誰もがクリエイターになれる時代が来るはずです」

本システムにより、さらにクリエイティブの世界が盛り上がってほしいという鈴木氏は、元々は研究者で、20年前から多くの斬新なアイデアに取り組んでいた。その後、情報分野の開発を経て商品企画へと異動。声デザインは、その間に培った鈴木氏の多様性と、入社以来20年間、音声合成一筋で技術を磨いてきた森田氏とチームメンバーの専門性が組み合わさって誕生した。2016年度中には、東芝のクラウドサービス「RECAIUS（リカイアス）」に組み込む形で実用化を予定している。

「面白い技術だという印象で終わらないよう、これからどう展開していくかが勝負です」
そう語る鈴木氏の眼差しには20年越しの熱い想いが宿っていた。