loading
TOP > デジタルソリューション > あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム

あなたの知らない機械翻訳の世界 日本の知財戦略を支える翻訳システム


ハイブリッド機械翻訳が特許文献の翻訳で見せた「進化」と「深化」

かくして、一般競争入札を経て東芝デジタルソリューションズが機械翻訳システムを2018年4月に受注。1年1か月後、2019年5月の稼働に向けて開発がスタートする。同社では翻訳品質と翻訳速度の実現を目指し、翻訳品質を重視するチーム、翻訳速度を重視するチームが走り始めた。

「私たちが求める翻訳品質、速度はもちろん、価格面なども含めた総合的な評価を経た結果です。東芝デジタルソリューションズには、最新のNMTを用いただけではなく、それをうまく処理し、支えるシステムの構成をしっかり提案していただきました。

今回の機械翻訳システムは高い品質だけではなく、特許情報プラットフォームに即したシステムが要求されます。一文ずつを各個で翻訳するのではなく、文書が数ページ単位でシステムに投げられ、それを切り出して並列で処理していかなければなりません」(目黒氏)

「一般的に機械翻訳は長文の翻訳が苦手で、文が長いほど処理時間を必要とします。ただ、長文を区切っていく前処理を行うことで翻訳品質はアップします。そこで、まずはRBMTを用い、日本語の構造を解析し、長文の中で意味が変わるポイントに目印をつけるようにしました。その目印に従って分割した文書をNICTのNMTに渡します。このシームレスな連携により、翻訳の速度、そして品質を担保できるのです」(西本)

特許の関連書類は、次のように複数行に亘る1文を1行ごとに区切っていたり、文章の途中にページ番号等の不要なデータが挿入されている。

特許出願例

「どの文章を結合し、どの文章を区切るという判断までは、まだAIではできません。翻訳品質の向上には、このような細かい使用感を向上させる『レイアウト解析』が必須でした。一つの文章を深掘りする言語処理は東芝に期待するところでしたね」(目黒氏)

「確かに、レイアウト解析は、プロジェクトの中でも注力したパートの一つでした」と、プロジェクトを振り返る三宅氏。例えば、システムを構築する中、特許分野とまったく関係のない『Sunrise』(日の出)という訳出結果が出てきたことがあったという。困惑して調査してみたところ、思わぬ原因が判明した。

「特許書類には、次のような書式が頻出します。ここで前段と後段がくっつくと『日出』になり、翻訳エンジンが『Sunrise』と訳してしまったのです。こうした誤訳をなくすためのレイアウト解析には、数百単位の処理が必要でした。しかも、これは目視でなければミスを発見できません。一つの解析で200以上の翻訳書類に目を通し、コツコツと作業を続けていきました」(三宅氏)

特許出願例2

科学技術を扱う特許文書ともなれば、化学式やDNA配列が登場することもある。アルファベットや数字の羅列は誤訳を招く原因の一つ。実は、NMTは、こうした記号列を正確に翻訳することが苦手である。NMTのウィークポイントである、記号が急に抜けてしまう「訳抜け」や逆に無関係な記号列を生成してしまう「湧き出し」が起きやすい。そこで、三宅氏らは「あえて翻訳させない」という手段を選択。入力文から化学式やDNA配列などの記号列を特定し、記号列以外をエンジンで翻訳。その後、翻訳結果と記号列を結合させて出力するという処理を組み込んだ。これにより、NMT特有の誤訳の抑制につながっている。

「NMT、SMTの機械翻訳は品質が高い分、計算量が多いため、RBMTと比べて処理時間を必要とします。特許のような長い文書を単純に翻訳させた場合、1文書で30分以上かかることも少なくありません。今回のシステムは、Webを閲覧するユーザーにリアルタイムで翻訳を届けるもの。パソコンの前で30分も待たせるわけにはいきません。速度向上を目指したチームの試行錯誤の積み重ねもあり、納得できるスピードに到達することができました」(西本氏)

終わりなき機械翻訳の精度向上――次なるステージを目指して

その後、2019年5月に日英翻訳の機能がリリース。特許情報プラットフォーム(J-PlatPat)には日本語から英語への書類・日本特許公報の翻訳機能が搭載された。海外の特許審査官が日本の審査結果を参照したり、海外への特許出願において参考にされる書類を日本の出願人が翻訳したりする際に活用されている。

「通常ではありえない文量の翻訳をさせるなど様々なバリエーションの試験を行い、最終的には小さな障害でさえ残さずにリリースを迎えられました。リリース直後には利用者から『翻訳品質が高くなり、すごく驚いた』という、喜びの電話をいただきました。めったにない反応ですが、これは翻訳精度が劇的に上がったことの証と言えるでしょう。さらなる翻訳品質の向上や、多言語化に対応できるシステム構成を目指してプロジェクトは続きますが、後半も安心して任せられると感じています」(目黒氏)

「一般のユーザーからの反応を知る機会はなかなかないので、本当にうれしかったですね。目黒さんから聞いて喜びもひとしおでした。目黒さんをはじめとする特許庁の方々には、踏み込んだ意見を多くいただき、どうやったら翻訳品質と速度を上げられるかという目標に向かって特許庁、NICT、東芝デジタルソリューションズが一つのチームとして進められたという感慨があります」(三宅氏)

2020年4月のリリースを目指して開発が進む中日翻訳機能・韓日翻訳機能の実装に向け、開発は現在進行形で続いています。エンジン面はNICT・隅田さんらにフィードバックして磨いていきながら、私たちのアプリケーションも改善を進めています。現時点で、機械翻訳にはまだ究極のサービス像、完成形が見えません。本プロジェクトで得た知見をもとに、官公庁や研究機関、企業の翻訳ニーズに応えるソリューションを開発していければと思います」(西本氏)

「東芝が開発した機械翻訳システムはセキュアな環境でも作動するので、厳格なセキュリティが求められる省庁や、その他にも製薬や金融、自動車といった対訳のデータが既に豊富にある領域にも展開が期待されます。NICTも引き続き、高精度エンジンの技術移転について連携していきたいですね。」(隅田氏)

特許庁が掲げる「世界最速・最高品質」の審査を支えるのはNICTの高度な技術、そして東芝の自然言語処理、知見だ。このパートナーシップを基盤にした不断の開発が、機械翻訳の未来形を垣間見せてくれる。

  • ↓ スクロールで続きを読む ↓