企業がAIガバナンスに重点を置く今、正しいデータ管理が鍵に

2021/06/11 Poornima Apte

企業がAIガバナンスに重点を置く今、正しいデータ管理が鍵に

今日のAI(人工知能)や機械学習アルゴリズムは、数百万とまではいかないまでも、数十万のデータセットにより実行されている。データに対する需要が高まる中、AIを活用してデータを収集、準備、販売するサービスが登場している。

 

しかし、データの価値が上がり始めたことにより、データをより広範囲に精査する必要性が生じてくる。企業では、機械学習の導入や使用の拡大に伴ってAIガバナンスを強化していかなければならない。

 

企業がデータを手に入れようと急いでしまうと、収集プロセスにおいて常に適切な注意を払えているとは言えない状況に陥る可能性があり、これが原因で不適切な影響につながる恐れがある。不適切なデータの収集と使用による倫理的および法的な影響を上手く調整することが難しいのは自明のことであるが、法的な規制が強まり、個人情報の取扱いに関する消費者の意識が高まりを見せている昨今では特に困難である。

機械学習におけるデータの役割

人工知能の一分野である学習データに正解を与えた状態で学習させる手法、教師あり学習においては、広範なデータセットを利用することが不可欠である。教師あり学習でAIは、多種多様な画像や音声ファイル、その他の種類のデータを「学習」するのだ。

 

例えば、空港の手荷物検査で使用される機械学習アルゴリズムは、何百万もの銃が写っている写真と、何百万もの銃が写っていない写真を見て、銃の見え方を学習する。つまり、企業はこうしたラベル付き画像のトレーニングセットを準備する必要がある。

 

「同じことは音声データにも当てはまる」と話すのは、音声認識技術会社Audio AnalyticのCEOであるChris Mitchell氏だ。Mitchell氏によると、AIを利用したホームセキュリティシステムを構築する場合、窓ガラスの破損や煙探知器など、様々な音を認識する必要があると言う。同様に重要なのは、ただのバックグラウンドノイズかもしれない音声の中からホームセキュリティに必要な情報を正しく特定する必要があることだ。火災警報器をターゲットとした音声では、火災警報器の正確な音をデータとして用意する必要がある。同時に、火災警報器に似ているが火災警報器ではない音も、ターゲットではない音声として用意しなければならない。

機械学習データにとっての問題点

機械学習アルゴリズムがテキスト、画像、音声、その他の様々なデータタイプを使用するにつれて、データ管理およびデータ来歴の必要性がますます高まっている。しかし、現実の世界でビジネスにおける新たな技術の導入事例が見られるようになる中、関連するデータセットの来歴はますます綿密に調査されるようになっている。今後企業が答えられるよう準備しておかなければならない質問を以下に挙げる。

  • データはどこから取得したものか?
  • データの所有者は誰か?
  • データに記載されている者や、データの提供元はデータの使用に同意しているか?

 

これらの質問が示すのは、AIにおけるデータガバナンスの必要性が、個人情報の取り扱いに関する倫理的懸念および法律の根底にあるということである。顔認識システムが人の顔をスキャンする場合、アルゴリズムで顔が使用されているすべての人が使用に同意する必要があるのではないか、ということだ。

 

個人情報の取り扱いの保護および同意への懸念に端を発する法律がその力をさらに強めている。EU一般データ保護規則 (GDPR: General Data Protection Regulation) では、いつでも個人がデータの使用に関する権限を付与および撤回する権利を与えている。一方で、AIガバナンスの法的枠組みを設定し、ある特定のデータについては使用を禁止し、データ収集前に許可を必要とする、という提案をEUは2021年に提起している。

 

データセットを購入しても、企業はその使用に関する責任を免除されない。消費者のプライバシーに対して米連邦取引委員会がFacebookに制裁金を科し、Facebook側が50億ドルの制裁金を支払ったのが、最たる例である。両者の合意内容には、サードパーティ製のアプリをより厳密に管理することを義務付ける、といった内容が含まれている。

 

要点は明確だ、とMitchell氏は言う。データの出所に関係なく、データ使用に関する責任は使用する企業がすべて負うべきである。「『このデータの出所はどこか』という質問に答えられるのは機械学習を使用する企業しかおらず、質問に答えるのはその企業の責任です」とMitchell氏は述べている。

 

違約金や法的な懸念もさることながら、機械学習モデルの力は堅牢なデータに依存している。そのため、企業がデータ来歴を監督する際に適切な注意を怠ったために、消費者がデータの使用許可を撤回した場合、AIにおけるデータ使用のプロセスをさかのぼることは明らかに難しく、そのデータセットの抽出が悪夢のような状況になることは想像に難くない。

同意にまつわる複雑な背景

事前に同意を求めること自体は良い方策であるが、実際にそれを行うのは難しい。理由の一つとして、データセットの使用履歴がデータソースから削除されてしまっている可能性があり、企業は誰から同意を得たら良いのかさえも分からない可能性が考えられる。

 

また、「自分が何に同意しているのかをすべて把握している消費者はいないだろう」と話すのは、ジョージタウン大学のCyber-SMART Centerでバイオセキュリティと倫理プログラムのディレクターを務め、新興技術および国際法政策の研究プログラムにおける共同ディレクターでもあるJames Giordano教授である。

 

「同意に関する倫理的・法的概念は、最低限の受入または拒否の権利を行使していると見なすことができます。例えば私が同意を示すとき、私は『はい、これを使ってもいいです』と返答しますが、それは私が『これ』が何であるかを知っていることを前提としています」とGiordano教授は述べる。

 

ただし、この同意方法は必ずしも実用的ではない。つまり、データは元々まったく別の目的で収集された可能性があり、消費者や企業でさえ、データのパンくずリストが実際どこにたどり着いているのか把握できていない可能性があるのだ。

 

「基本原則として『疑わしい場合は同意を求める』ことが賢明な戦略で、この戦略に従うべきです」とMitchell氏は言う。

そのため、企業の責任者は、堅牢で適切に管理されたデータを機械学習モデルの基盤としているかを確認する必要がある。Mitchell氏は次のように述べる。「極めて単純なことです。多大な努力をしなければなりません。近道をするべきではないのです。」

 

この記事はVentureBeatのPoornima Apteが執筆し、Industry Diveパブリッシャーネットワークを通じてライセンスされたものです。ライセンスに関するお問い合わせはlegal@industrydive.comにお願い致します。

 

※本記事の文中リンクは英語のページに遷移します。

Related Contents