あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム
2019/08/21 Toshiba Clip編集部
この記事の要点は...
- 特許翻訳ニーズが爆発的に増加する中、機械翻訳が求められている
- 複数の機械翻訳エンジンを組み合わせ、高品質・高速度を実現
- 日英から中日・韓日の多言語対応を目指し開発は続く
国内で発明された特許の情報を世界に伝え、各国で出願されている特許情報を把握する――経済のグローバル化に伴い、国際知財戦略の重要性は増す一方だ。このため特許文献の翻訳に対するニーズも高まっている。しかし、マンパワーに頼った従来型の翻訳では、コストやスピードの面から、大量の翻訳をこなすのが難しい。そこで期待されているのが機械翻訳だ。
2019年5月、特許庁が特許情報を公開するプラットフォームで新しい「機械翻訳システム」が稼働を始めた。このシステムを支えるのは国立研究開発法人 情報通信研究機構(以下NICT)が開発した機械翻訳エンジン、そして東芝デジタルソリューションズが長く培ってきた自然言語処理技術である。
正確で、そして自然な翻訳をスピーディーに提供するために――AIと技術者の知見が融合し、ブレイクスルーをもたらした開発に迫る。
東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公ソリューション技術第二部 三宅悠紀子氏
情報通信研究機構(NICT)先進的音声翻訳研究開発推進センター 副研究開発推進センター長 隅田英一郎氏
特許庁 総務部総務課特許情報室 室長補佐 目黒光司氏
東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公営業第四部 西本俊之氏
知財戦略が活発化する中、特許文献の翻訳ニーズも急増
日本の科学技術を守り、そしてイノベーションを推進していくために重要な役割を果たすのが特許審査である。特許審査官は最新技術と従来技術との差異を見極め、適切に特許権を設定していく役割を担う。
特許庁のミッションを「世界最速・最高品質の審査を行うこと」と語るのは、機械翻訳システムの調達からプロジェクト進行まで携わった、特許庁 総務部総務課特許情報室 室長補佐の目黒光司氏だ。
「爆発的に増えている外国の特許技術文献を調査すること。そして、日本企業の海外での円滑な権利取得を支援すべく、特許審査官の審査結果を海外に発信すること。この2つが私たち特許庁の業務課題です」(目黒氏)
「これらの課題を解決するためには、審査結果を日本語から英語に翻訳すること、各国から取得した特許文献を日本語に翻訳することが求められます。こうして、特許情報プラットフォーム(J-PlatPat)を刷新し、新たな機械翻訳システムの構築に入りました。『世界最速・最高品質の審査』を目指すため、本システムでは翻訳品質と翻訳速度が最重要ポイントになりました」(目黒氏)
一般競争入札を経て受注したのは、東芝グループの中で、システムインテグレーションおよびAI・IoTを活用したサービスソリューションを提供する東芝デジタルソリューションズ株式会社。同社の西本俊之氏は営業担当として、三宅悠紀子氏は翻訳品質における技術担当として提案からリリースまでに携わった。
「東芝は長く機械翻訳技術の開発に取り組んできました。基幹となっていたのはルールベース機械翻訳エンジン※1(以下RBMT)を用いたものでした。
※1:辞書・文法知識に基づく機械翻訳。この他に、大量に収集した対訳データを用いた統計情報に基づく統計的機械翻訳、深層学習(ディープラーニング)技術を用いたニューラル機械翻訳がある。
そこで、今回の機械翻訳システムでもこれまでの流れをくみ、RBMTを用いた提案を目指しました。しかし、調達の直前になり、RBMTでは要求される翻訳品質に達しないことが判明し、一体どうしたものか……提案の断念すら選択肢にのぼった時です。以前、翻訳エンジンの技術移転をいただいたNICTとの連携を思いつき、隅田さんに相談をさせていただいたのです」(西本氏)
NICTは特許文献の機械翻訳を研究してきた実績があり、特許庁との関係も深い。さらに、特許文献を対象に数億文という世界最大規模の対訳データを作成し、その基盤に基づいて先端のニューラル機械翻訳(以下NMT)を開発してきた。NICTフェローの隅田氏は西本氏の打診を快諾し、技術移転に向けたやり取りが始まった。
「研究所が開発した翻訳エンジン、プログラムを外部に提供し、技術をあまねく広げていく。それが私たちNICTの役割です。とはいっても、どこにでも技術を出すわけではありません。きちんとした技術基盤があるところでなければ、せっかくの技術が広く伝わることがないからです。
その点、東芝は機械翻訳を開発してきた歴史があり、私たちが統計的機械翻訳(以下、SMT)の技術を移転してきた実績もあります。特許に関する機械翻訳の技術移転の検討であれば、喜んで話に乗ったという次第です」(隅田氏)
※1:BLEU値:正解の訳文と機械翻訳の結果を比較し、類似度に基づいて翻訳品質を評価する指標。0%~100%でスコアを算出し、スコアが高いほど高品質となる。
まず、東芝チームはRBMT、SMT、NMTなどを含め7つのエンジンを候補としてリストアップ。NICTのアドバイスを受けつつ、特許文書に最適なエンジンの選定に入った。
「1000以上の文書を各エンジンで翻訳し、それぞれの精度と文書翻訳における長所、短所を洗い出したのです。自分の目で比較してきましたから、この方式が最適です、と自信を持って提案することができました」(西本氏)
「提案に向けて開発を進めていくうちに分かってきたのが、きめ細かく対応できる機械翻訳システムのあり方です。
たとえば、文書の前半部分はRBMTが向いていて、中盤になるとNMTが強みを発揮。最後の部分ではまたRBMTが向いている……といったように、特許文書を翻訳しようと思うと、複雑なエンジンの構造が求められます。すべて単一のエンジンで翻訳すると、翻訳品質を担保できないことがわかってきました」(三宅氏)
1000もの文書を各エンジンで翻訳し、それぞれの結果を地道に精査。泥臭いトライの結果として導き出されたのが、NMTを中心にしてRBMT、SMTのエンジンを適宜組み合わせるハイブリッドスタイルだ。翻訳前・翻訳後の処理には東芝が磨いてきた自然言語処理を採用。最先端をゆくNICTのエンジンを用い、機械翻訳に注力してきた東芝の強みも生かすことができる。
ハイブリッド機械翻訳が特許文献の翻訳で見せた「進化」と「深化」
かくして、一般競争入札を経て東芝デジタルソリューションズが機械翻訳システムを2018年4月に受注。1年1か月後、2019年5月の稼働に向けて開発がスタートする。同社では翻訳品質と翻訳速度の実現を目指し、翻訳品質を重視するチーム、翻訳速度を重視するチームが走り始めた。
「私たちが求める翻訳品質、速度はもちろん、価格面なども含めた総合的な評価を経た結果です。東芝デジタルソリューションズには、最新のNMTを用いただけではなく、それをうまく処理し、支えるシステムの構成をしっかり提案していただきました。
今回の機械翻訳システムは高い品質だけではなく、特許情報プラットフォームに即したシステムが要求されます。一文ずつを各個で翻訳するのではなく、文書が数ページ単位でシステムに投げられ、それを切り出して並列で処理していかなければなりません」(目黒氏)
「一般的に機械翻訳は長文の翻訳が苦手で、文が長いほど処理時間を必要とします。ただ、長文を区切っていく前処理を行うことで翻訳品質はアップします。そこで、まずはRBMTを用い、日本語の構造を解析し、長文の中で意味が変わるポイントに目印をつけるようにしました。その目印に従って分割した文書をNICTのNMTに渡します。このシームレスな連携により、翻訳の速度、そして品質を担保できるのです」(西本)
特許の関連書類は、次のように複数行に亘る1文を1行ごとに区切っていたり、文章の途中にページ番号等の不要なデータが挿入されている。
「どの文章を結合し、どの文章を区切るという判断までは、まだAIではできません。翻訳品質の向上には、このような細かい使用感を向上させる『レイアウト解析』が必須でした。一つの文章を深掘りする言語処理は東芝に期待するところでしたね」(目黒氏)
「確かに、レイアウト解析は、プロジェクトの中でも注力したパートの一つでした」と、プロジェクトを振り返る三宅氏。例えば、システムを構築する中、特許分野とまったく関係のない『Sunrise』(日の出)という訳出結果が出てきたことがあったという。困惑して調査してみたところ、思わぬ原因が判明した。
「特許書類には、次のような書式が頻出します。ここで前段と後段がくっつくと『日出』になり、翻訳エンジンが『Sunrise』と訳してしまったのです。こうした誤訳をなくすためのレイアウト解析には、数百単位の処理が必要でした。しかも、これは目視でなければミスを発見できません。一つの解析で200以上の翻訳書類に目を通し、コツコツと作業を続けていきました」(三宅氏)
科学技術を扱う特許文書ともなれば、化学式やDNA配列が登場することもある。アルファベットや数字の羅列は誤訳を招く原因の一つ。実は、NMTは、こうした記号列を正確に翻訳することが苦手である。NMTのウィークポイントである、記号が急に抜けてしまう「訳抜け」や逆に無関係な記号列を生成してしまう「湧き出し」が起きやすい。そこで、三宅氏らは「あえて翻訳させない」という手段を選択。入力文から化学式やDNA配列などの記号列を特定し、記号列以外をエンジンで翻訳。その後、翻訳結果と記号列を結合させて出力するという処理を組み込んだ。これにより、NMT特有の誤訳の抑制につながっている。
「NMT、SMTの機械翻訳は品質が高い分、計算量が多いため、RBMTと比べて処理時間を必要とします。特許のような長い文書を単純に翻訳させた場合、1文書で30分以上かかることも少なくありません。今回のシステムは、Webを閲覧するユーザーにリアルタイムで翻訳を届けるもの。パソコンの前で30分も待たせるわけにはいきません。速度向上を目指したチームの試行錯誤の積み重ねもあり、納得できるスピードに到達することができました」(西本氏)
終わりなき機械翻訳の精度向上――次なるステージを目指して
その後、2019年5月に日英翻訳の機能がリリース。特許情報プラットフォーム(J-PlatPat)には日本語から英語への書類・日本特許公報の翻訳機能が搭載された。海外の特許審査官が日本の審査結果を参照したり、海外への特許出願において参考にされる書類を日本の出願人が翻訳したりする際に活用されている。
「通常ではありえない文量の翻訳をさせるなど様々なバリエーションの試験を行い、最終的には小さな障害でさえ残さずにリリースを迎えられました。リリース直後には利用者から『翻訳品質が高くなり、すごく驚いた』という、喜びの電話をいただきました。めったにない反応ですが、これは翻訳精度が劇的に上がったことの証と言えるでしょう。さらなる翻訳品質の向上や、多言語化に対応できるシステム構成を目指してプロジェクトは続きますが、後半も安心して任せられると感じています」(目黒氏)
「一般のユーザーからの反応を知る機会はなかなかないので、本当にうれしかったですね。目黒さんから聞いて喜びもひとしおでした。目黒さんをはじめとする特許庁の方々には、踏み込んだ意見を多くいただき、どうやったら翻訳品質と速度を上げられるかという目標に向かって特許庁、NICT、東芝デジタルソリューションズが一つのチームとして進められたという感慨があります」(三宅氏)
「2020年4月のリリースを目指して開発が進む中日翻訳機能・韓日翻訳機能の実装に向け、開発は現在進行形で続いています。エンジン面はNICT・隅田さんらにフィードバックして磨いていきながら、私たちのアプリケーションも改善を進めています。現時点で、機械翻訳にはまだ究極のサービス像、完成形が見えません。本プロジェクトで得た知見をもとに、官公庁や研究機関、企業の翻訳ニーズに応えるソリューションを開発していければと思います」(西本氏)
「東芝が開発した機械翻訳システムはセキュアな環境でも作動するので、厳格なセキュリティが求められる省庁や、その他にも製薬や金融、自動車といった対訳のデータが既に豊富にある領域にも展開が期待されます。NICTも引き続き、高精度エンジンの技術移転について連携していきたいですね。」(隅田氏)
特許庁が掲げる「世界最速・最高品質」の審査を支えるのはNICTの高度な技術、そして東芝の自然言語処理、知見だ。このパートナーシップを基盤にした不断の開発が、機械翻訳の未来形を垣間見せてくれる。