loading
TOP > デジタルソリューション > あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム

あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム


あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム

この記事の要点は…

特許翻訳ニーズが爆発的に増加する中、機械翻訳が求められている

複数の機械翻訳エンジンを組み合わせ、高品質・高速度を実現

日英から中日・韓日の多言語対応を目指し開発は続く

国内で発明された特許の情報を世界に伝え、各国で出願されている特許情報を把握する――経済のグローバル化に伴い、国際知財戦略の重要性は増す一方だ。このため特許文献の翻訳に対するニーズも高まっている。しかし、マンパワーに頼った従来型の翻訳では、コストやスピードの面から、大量の翻訳をこなすのが難しい。そこで期待されているのが機械翻訳だ。

2019年5月、特許庁が特許情報を公開するプラットフォームで新しい「機械翻訳システム」が稼働を始めた。このシステムを支えるのは国立研究開発法人 情報通信研究機構(以下NICT)が開発した機械翻訳エンジン、そして東芝デジタルソリューションズが長く培ってきた自然言語処理技術である。

正確で、そして自然な翻訳をスピーディーに提供するために――AIと技術者の知見が融合し、ブレイクスルーをもたらした開発に迫る。

東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公ソリューション技術第二部 三宅悠紀子氏 情報通信研究機構(NICT)先進的音声翻訳研究開発推進センター 副研究開発推進センター長 隅田英一郎氏 特許庁 総務部総務課特許情報室 室長補佐 目黒光司氏 東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公営業第四部 西本俊之氏

東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公ソリューション技術第二部 三宅悠紀子氏
情報通信研究機構(NICT)先進的音声翻訳研究開発推進センター 副研究開発推進センター長 隅田英一郎氏
特許庁 総務部総務課特許情報室 室長補佐 目黒光司氏
東芝デジタルソリューションズ株式会社 ICTソリューション事業部 官公営業第四部 西本俊之氏

知財戦略が活発化する中、特許文献の翻訳ニーズも急増

日本の科学技術を守り、そしてイノベーションを推進していくために重要な役割を果たすのが特許審査である。特許審査官は最新技術と従来技術との差異を見極め、適切に特許権を設定していく役割を担う。

特許庁のミッションを「世界最速・最高品質の審査を行うこと」と語るのは、機械翻訳システムの調達からプロジェクト進行まで携わった、特許庁 総務部総務課特許情報室 室長補佐の目黒光司氏だ。

爆発的に増えている外国の特許技術文献を調査すること。そして、日本企業の海外での円滑な権利取得を支援すべく、特許審査官の審査結果を海外に発信すること。この2つが私たち特許庁の業務課題です」(目黒氏)

目黒氏

「これらの課題を解決するためには、審査結果を日本語から英語に翻訳すること、各国から取得した特許文献を日本語に翻訳することが求められます。こうして、特許情報プラットフォーム(J-PlatPat)を刷新し、新たな機械翻訳システムの構築に入りました。『世界最速・最高品質の審査』を目指すため、本システムでは翻訳品質と翻訳速度が最重要ポイントになりました」(目黒氏)

世界の特許出願数推移

一般競争入札を経て受注したのは、東芝グループの中で、システムインテグレーションおよびAI・IoTを活用したサービスソリューションを提供する東芝デジタルソリューションズ株式会社。同社の西本俊之氏は営業担当として、三宅悠紀子氏は翻訳品質における技術担当として提案からリリースまでに携わった。

「東芝は長く機械翻訳技術の開発に取り組んできました。基幹となっていたのはルールベース機械翻訳エンジン※1(以下RBMT)を用いたものでした。

※1:辞書・文法知識に基づく機械翻訳。この他に、大量に収集した対訳データを用いた統計情報に基づく統計的機械翻訳、深層学習(ディープラーニング)技術を用いたニューラル機械翻訳がある。

そこで、今回の機械翻訳システムでもこれまでの流れをくみ、RBMTを用いた提案を目指しました。しかし、調達の直前になり、RBMTでは要求される翻訳品質に達しないことが判明し、一体どうしたものか……提案の断念すら選択肢にのぼった時です。以前、翻訳エンジンの技術移転をいただいたNICTとの連携を思いつき、隅田さんに相談をさせていただいたのです」(西本氏)

西本氏

NICTは特許文献の機械翻訳を研究してきた実績があり、特許庁との関係も深い。さらに、特許文献を対象に数億文という世界最大規模の対訳データを作成し、その基盤に基づいて先端のニューラル機械翻訳(以下NMT)を開発してきた。NICTフェローの隅田氏は西本氏の打診を快諾し、技術移転に向けたやり取りが始まった。

「研究所が開発した翻訳エンジン、プログラムを外部に提供し、技術をあまねく広げていく。それが私たちNICTの役割です。とはいっても、どこにでも技術を出すわけではありません。きちんとした技術基盤があるところでなければ、せっかくの技術が広く伝わることがないからです。

その点、東芝は機械翻訳を開発してきた歴史があり、私たちが統計的機械翻訳(以下、SMT)の技術を移転してきた実績もあります。特許に関する機械翻訳の技術移転の検討であれば、喜んで話に乗ったという次第です」(隅田氏)

隅田氏

比較表

※1:BLEU値:正解の訳文と機械翻訳の結果を比較し、類似度に基づいて翻訳品質を評価する指標。0%~100%でスコアを算出し、スコアが高いほど高品質となる。

まず、東芝チームはRBMT、SMT、NMTなどを含め7つのエンジンを候補としてリストアップ。NICTのアドバイスを受けつつ、特許文書に最適なエンジンの選定に入った。

1000以上の文書を各エンジンで翻訳し、それぞれの精度と文書翻訳における長所、短所を洗い出したのです。自分の目で比較してきましたから、この方式が最適です、と自信を持って提案することができました」(西本氏)

「提案に向けて開発を進めていくうちに分かってきたのが、きめ細かく対応できる機械翻訳システムのあり方です。

たとえば、文書の前半部分はRBMTが向いていて、中盤になるとNMTが強みを発揮。最後の部分ではまたRBMTが向いている……といったように、特許文書を翻訳しようと思うと、複雑なエンジンの構造が求められます。すべて単一のエンジンで翻訳すると、翻訳品質を担保できないことがわかってきました」(三宅氏)

三宅氏

1000もの文書を各エンジンで翻訳し、それぞれの結果を地道に精査。泥臭いトライの結果として導き出されたのが、NMTを中心にしてRBMT、SMTのエンジンを適宜組み合わせるハイブリッドスタイルだ。翻訳前・翻訳後の処理には東芝が磨いてきた自然言語処理を採用。最先端をゆくNICTのエンジンを用い、機械翻訳に注力してきた東芝の強みも生かすことができる。

> ハイブリッド機械翻訳が特許文献の翻訳で見せた「進化」と「深化」

  • ↓ スクロールで続きを読む ↓