loading
TOP > デジタルソリューション研究開発 > ほしい音声を思いのままに 「声デザイン」技術

ほしい音声を思いのままに 「声デザイン」技術


ほしい音声を思いのままに 「声デザイン」技術

この記事の要点は…
必要な声色を簡単に合成できる最新技術

GUIで直感的な操作が可能

2016年度中の実用化を目指す

カーナビやスマートフォン、エレベーターなど、機械による自動音声案内は私たちの日常に溶け込んだ光景となっている。それを支えるのは「音声合成」と呼ばれる、任意のテキストを自然に読み上げる技術だ

音声合成の技術の進化はめざましく、より自然で人の声に近い音声を合成できるようになっている。さらに、話者の声から特徴をつかみ、その話者によく似た声を合成できる「似声」作成技術や、喜び・怒り・哀しみなどを表現できる感情制御機能の実用化も進んでいる。

東芝では、カーナビなどに組み込まれた音声合成ソフトの分野で長年トップシェアを維持している。その技術力を活かし、多様な音声を低コスト・短期間で簡単に作成できる「声デザイン」技術を開発。パソコンなどで直感的に操作することができ、これまでは数日かかっていた作業が数分でできるようになった。

直感的な操作を可能にした2つの工夫

声デザインの最大の魅力は、ほしい声を、誰でも簡単につくりだせることです。音声合成は、教材や書籍の音声化、機器の操作ガイドなど様々な形で利用されていますが、これまでは限られた声の選択肢しかありませんでした。『本当はもう少し明るい声がよいのだけど…』といった要望に応えきれない場面もあったのです」

声デザインの生みの親である鈴木優氏。東芝 インダストリICTソリューション社で商品企画を担当している。

声デザインの生みの親である鈴木優氏。東芝 インダストリICTソリューション社で商品企画を担当している。

本システムでは性別、年齢、明るさなどの声の特徴を示す7つの項目の数値をグラフ上で操作することで、数万種類以上の音声を簡単につくりだせる。画面には、グラフィカル・ユーザー・インターフェース(GUI)を取り入れており、直感的な操作を実現した。

多様な声を自在に作成できる、東芝の声デザイン技術。
この動画は2016年3月7日に公開されたものです。

例えば、若い女性の声をつくりたい時には、まず、キャラクターのアイコンからイメージに近いものを選ぶ。ベースになる音声を選び、それからグラフ上での操作にうつる。
「音声のイメージは合っているが、もう少し変えたい」という場合は、先述のグラフでカーソル位置を操作することで、即座に調整できる。これまでは、声優による再録が必要なケースもあり、多くの時間やコストがかかっていたが、本システムを使えば、低コストで簡単にイメージ通りの音声をつくることが可能になる

直感的な操作を実現した背景にはどのような工夫があったのだろうか。開発チームを率いる森田眞弘氏は、声の特徴をスコア化したことがポイントになったと語る。

「直感的な操作を可能にするためには、その人が抱いている印象の通りに音声を変化させることが重要になってきます。そのためには声の特徴を示す形容詞とその度合を共有する必要がありました。
私たちはまず、声の特徴を表わす言葉を選定するために、統計処理によって代表的な形容詞を抽出しました。次に、選択した言葉を評価軸にした主観評価を行い、その結果からそれぞれの声の特徴を表すスコアを算出しました。さらに、スコア化された声のデータを分析することで、スコアと声の特徴の関係を統計的にモデル化しました。こうして作りあげた統計モデルを基に、あるスコアを与えると、イメージ通りの特徴を持つ音声が合成できるようになりました。」

声デザイン開発チームを率いる森田眞弘氏

入社以来、音声合成一筋という森田氏。学生時代は音声によって金魚の脳神経のつながりが強まり逃避行動パターンが変化することを明らかにするユニークな研究をしていた。

> 次ページ声デザインが生み出す新たなクリエイティブの可能性

  • ↓ スクロールで続きを読む ↓