Special Articles

秘匿クロス統計技術特集 ―企業横断の統計的なデータ活用による社会課題解決―
企業横断の統計的なデータ活用による社会課題解決
―秘匿クロス統計技術の概要―

セキュリティ プライバシー保護 データ活用

野澤 一真(のざわ かずま)  中川 智尋(なかがわ ともひろ)
佐々木 一也(ささき かずや)  寺田 雅之(てらだ まさゆき)

クロステック開発部

あらまし
さまざまな社会課題の解決には,各企業の保有するデータを企業横断で活用し,社会で発生する事象を俯瞰的にとらえることが有効である.一方,国内外でデータ提供者のプライバシー保護に関する新たなルール作りも進んでおり,個人のプライバシーを保護しつつ,データ活用を行うことが重要である.本稿では,プライバシー情報を保護した上で,企業横断で統計情報を作成する秘匿クロス統計技術の概要を解説する.本技術による,企業を横断したデータの統計的活用を通じて,従来得られなかった新たな視点で事象をとらえ,効果的な課題解決に繋がることが期待される.

01. まえがき

  • データに基づく意思決定は広く社会に浸透し,さまざまな ...

    開く

    データに基づく意思決定は広く社会に浸透し,さまざまな社会課題の解決においてデータ活用の重要性が増している.例えば,ドコモでは,携帯電話ネットワークの運用データ*1※に基づいて人口統計を推計することで,災害時における帰宅困難者対策などの防災計画策定に寄与している[1].このように,データを用いて事象を正しくとらえることで,より効率的に問題解決を図ることが期待される.しかしながら,ある特定の問題に注目し,その問題を解決しようと考えた場合,単独の企業が保有するデータだけでは,生じている事象を一面的にしかとらえられない可能性がある.そこでこのようなケースでは,複数の異なる企業に蓄積されたデータを企業横断で活用することで,複合的な観点や俯瞰的な視点から社会で発生する事象をとらえることができる[2].

    一方で,データ活用で得られる便益への期待の高まりに呼応して,国内外でデータ提供者のプライバシー保護に関する新たなルール作りも進んでいる.EUでは2018年に一般データ保護規則(GDPR:General Data Protection Regulation)*2 [3]が施行され,個人に関する情報を保護する法整備が進められた.また,2020年には米国でカリフォルニア州消費者プライバシー法(CCPA:California Consumer Privacy Act)*3[4]の適用が開始されている.さらに,日本でも2022年4月に改正個人情報保護法[5]が施行された.安心安全なデータ活用に向けて,これらのルールの遵守はデータ活用を行う企業の責務である.また,このような法令遵守のみならずデータ主体である個人が安心する形で,プライバシー情報を保護し,データ活用を行うことが重要である.例えば,米国センサス局では2020年国勢調査において,差分プライバシー*4と呼ばれる数学的に厳密なプライバシー情報の保護指標を採用している.従来では,データ・スワッピング*5をはじめとする,その場しのぎのプライバシー情報の保護を行っていたが,データの増加や計算機の処理能力向上により,元データの一部または全部を逆算する再構築攻撃の脅威が無視できなくなってきていた[6][7].このように,データの活用にあたって,プライバシー情報を保護する重要性がますます高まっている.

    関連法令を遵守し,かつ個人のプライバシー情報を保護した上で,データを活用する方法として,個人を特定できないようにデータを統計化した「統計情報」への加工(以下,統計的データ活用)が考えられる.統計情報とは,複数人の情報から共通要素を集計などして得られた情報であり,個人との対応関係が排斥されている.企業単独の統計的データ活用は多く行われているが(例えば,文献[8]など),企業横断でそれを行うことは容易ではない.その理由としては,企業横断の統計的データ活用は,企業間でデータの受渡しが発生する過程においても,関連法令を遵守し,かつプライバシー情報を明かさずに,統計情報を作成することが必要だからである.企業横断の統計的データ活用を行うために,出力データを作成する過程のプライバシー保証と出力データのプライバシー保証の課題を解決する必要がある.

    出力データを作成する過程のプライバシー保証の課題は,統計情報を作成するためのデータを入力・集計処理することによって,他の企業や第三者に対して入力データに関する個人情報を含むプライバシー情報が明かされることである.例えば,自社のデータと他社のデータを用いて統計情報を作成するために,自社のデータを他社に公開する必要があるが,自社のデータの個人情報を含むプライバシー情報は守られない.

    また,出力データのプライバシー保証の課題は,企業横断で集計処理した出力データからプライバシー情報が読み取られてしまうことである.一見安全に見える集計結果でも複数の集計結果の組合せや,背景知識を用いることで,プライバシー情報の侵害が生じることが指摘されている[9].そのため,プライバシー情報を保護した上で,企業横断の統計的データ活用を行うために,出力データのプライバシー情報の保護が必要不可欠である.

    以上より,企業横断での統計的データ活用に参加する企業においても,これら両方の課題を解決した上で,統計的データ活用が可能な技術が必要である.

    ドコモは,日本電信電話株式会社と協力し,企業が保有するデータを横断した統計的データ活用を実現する技術として秘匿クロス統計技術(図1)を開発した.秘匿クロス統計技術は各社が保有するデータ(例えば,ドコモのデータとパートナー企業のデータ)を,各社において個人を識別できない状態(個人情報ではない状態)に加工した上で,データを相互に明かすことなく,すなわち,一連の処理を人の目に触れることなく機械が行うことを技術的に保証して,統計情報を作成する技術である.また,本技術を広く社会実装することを想定して,作成された統計情報の有用性の検証も行った.法令遵守は当然のこととして,個人のプライバシー情報の保護を確実に実施した上で,データ活用の領域を企業内から企業間に拡げることができれば,単独の企業のデータからは得られない,新たな視点を得ることができる.本稿では企業横断での統計的データ活用における要件を整理し,要件を達成する方針を述べ,秘匿クロス統計技術の概要を解説する.

    図1 秘匿クロス統計技術

    図1 秘匿クロス統計技術

    1. 携帯電話ネットワークの運用データ:電気通信サービスを提供する過程で発生するデータの総称.
    2. 一般データ保護規則(GDPR):EU加盟国および欧州経済領域で適用される個人情報の取扱いに関する保護規則.個人情報の取得や移動にも適用される.
    3. カリフォルニア州消費者プライバシー法(CCPA):アメリカ合衆国カリフォルニア州の住民に対するプライバシー保護に関する州法.
    4. 差分プライバシー:特定の背景知識や攻撃能力をもつ攻撃者に対しても安全性を保証できることを目的として作成されたプライバシー保護の強度を定量的に測る指標.なお,米国国勢調査においても,「差分プライバシー」を用いた保護手法が採用されている.
    5. データ・スワッピング:元のレコードと一致しないようにデータセットの属性値を入れ替える手法.
    • 電気通信サービスを提供する過程で発生するデータの総称であり,モバイル空間統計®でも利用されている.運用データは,お客さまがご利用の携帯電話の位置データおよびお客さまの属性データを含むものであり,それぞれの定義についてはモバイル空間統計ガイドライン(以下のリンク)を参照されたい.
      https://www.docomo.ne.jp/corporate/disclosure/mobile_spatial_statistics/guideline/

02. 秘匿クロス統計技術と社会課題解決に向けた活用

  • 以下では,前述した課題を踏まえた上で,企業横断の統計的データ活用における要件と ...

    開く

    以下では,前述した課題を踏まえた上で,企業横断の統計的データ活用における要件と要件を満たすための方針を整理し,社会課題の解決に向けた本技術の活用を述べる.

    2.1 企業横断の統計的データ活用における要件

    ここでは,企業横断の統計的データ活用が満たすべき安全性要件を定義する.各社が保有するデータから統計情報を作成するためには,通常ならば,少なくともいずれか一方の企業から,もう一方の企業へデータを提供し,集計処理を行う必要がある.その際に提供先の企業が受領したデータの中身を確認できる場合,提供先の企業(もしくは第三者)に対して入力データが明かされてしまう.また,データ連携後に出力されるデータに個人との対応関係が排斥されていない場合,出力データのプライバシー情報が保護されない.

    さらに,いかに安心安全な出力データが得られたとしても,そのデータに有用性がなければ価値はない.またその有用性は,企業が保有するデータを横断して作成した以上,単独企業では分かり得なかったデータ活用の価値であることが望ましい.よって,安心安全な統計情報を作成するだけではなく,その有用性についても評価する必要がある.企業横断の統計的データ活用における,満たすべき要件を下記にまとめる.

    • データ連携前に個人を識別できないデータに加工し,データ連携中に自社のデータが他社に明かされないこと
    • データ連携後の出力データにおけるプライバシー情報が保護されること
    • 企業横断で作成した統計情報から,単独企業では得られない価値が創出されること

    2.2 安全性要件を満たすアプローチ

    前述の要件を満たす方針について述べる.なお,(1)〜(4)の処理を適切に組み合わせることで,安全性要件を満たすことができる.

    (1)非識別化処理

    データ連携前に個人を識別できないデータに加工するために,ハッシュ関数*6を採用することとした.ハッシュ関数ではデータにソルト*7を付与した上で,ハッシュ値(以下,非識別化ハッシュ)を計算すること(ハッシュ化*8)ができる.ハッシュ化を行った後に,ソルトを破棄することで,不可逆に非識別化ハッシュへ変換する.

    (2)準同型暗号技術を用いた集計処理

    データ連携中に自社のデータが他社に明かされないために,準同型暗号技術[10]を採用することとした.これはデータを暗号化したまま,計算処理が可能な技術である.この技術を応用することで,データを暗号化したまま,企業間でデータの集計などの演算処理が可能である.準同型暗号技術は,許可されたもののみが情報にアクセスできるという機密性を保証し,これがデータを集計する企業から,プライバシー情報を保護するため,出力データを作成する過程のプライバシー保証の課題への対策となる.

    (3)差分プライバシーに基づくノイズ付加*9による秘匿処理

    しかしながら,準同型暗号技術のみでは,出力データのプライバシー保証の課題の解決という要件は満たされない.出力データのプライバシー保証の課題への対策には,差分プライバシーに基づくノイズ付加が有用である.差分プライバシーとは,特定の背景知識や攻撃能力をもつ攻撃者に対しても安全性を保証できることを目的として作成された,プライバシー保護の強度を定量的に測る指標である[9].従来の指標は,特定の攻撃者や前提条件に対する安全性の保証度合いを示すものであったが,差分プライバシーは,汎用的な安全性を目的とした指標である.各社のデータを準同型暗号技術で暗号化し,暗号状態のまま集計処理と差分プライバシーに基づくノイズ付加を行うことで,出力データのプライバシー保証の課題の対策とした.仮に,差分プライバシーに基づくノイズ付加を平文の状態で行った場合には,ノイズ付加前の集計結果を知得できるため,プライバシー情報が保護されない懸念がある.よって,機密性を保証するために,入力から出力までの一連のデータ処理をすべて暗号化された状態で行うことが肝要である.

    (4)データ処理の隔離実行環境への実装

    出力データを作成する過程のプライバシー保証と出力データのプライバシー保証の課題は,準同型暗号技術と差分プライバシーに基づくノイズ付加技術を適切に組み合わせ,正しく行われることで解消される.しかし,データの処理が誤って行われる可能性もあるため,対策を講じる必要がある.準同型暗号と差分プライバシーに基づくノイズ付加が正しく行われなかった場合(例えば,ソフトウェアが改ざんされるなど)には,入力出力いずれのプライバシー情報も保護されない可能性がある.よって,ソフトウェアが改ざんされていないという性質である完全性*10を保証することで,期待する処理が正しく実施されることを技術的に保証する.具体的には,準同型暗号化と差分プライバシー基準に基づくノイズ付加の一連のデータ処理を隔離実行環境に実装する方針とした.隔離実行環境とは,データを隔離された信頼できる領域に配置し,データ処理をその領域内に完結して実行する技術である.特にハードウェアに基づいて隔離された領域内でデータ処理を実行することで,完全性を保証する.詳細は本特集別記事[14]を参照されたい.

    2.3 秘匿クロス統計技術

    ドコモでは,前述の方針を踏まえて,企業横断で統計的データ活用を行う際に機密性と完全性を保証する秘匿クロス統計技術を開発した.秘匿クロス統計技術では隔離実行環境で①非識別化処理(個人を識別できない状態に加工する処理)・②集計処理・③秘匿処理を行うことで,統計情報が作成される.①非識別化処理は各社が保有するIDを不可逆変換し,個人を識別できない状態に加工する.具体的には,隔離実行環境内でIDにソルトを付与し,一方向関数によって,非識別化ハッシュを得た後,ソルトの破棄を技術的に保証する.さらに,非識別化ハッシュを各社のそれぞれの暗号鍵で暗号化する.②集計処理と③秘匿処理は,隔離実行環境内で準同型暗号技術と差分プライバシーに基づくノイズ付加技術を組み合わせた処理であり,相互に非識別化ハッシュを明かすことなく,プライバシー情報が保護された安全な統計情報を得ることができる.なお,本技術の入力データは,各社が特定の条件に基づいて抽出したIDリストであり,①非識別化処理により,これらのIDリストを,個人を識別できない状態(個人情報ではない状態)に加工した上で,②集計処理と③秘匿処理により,各社が保有する非識別化ハッシュの共通集合要素数を出力する.各社の抽出条件を分析軸*11に応じて変更し,本技術を繰返し実行することで,クロス集計表(表1)を作成できる.クロス集計表とは,2つ以上の指標を行および列に設定して集計した表を指し,本技術で作成するクロス集計表は,表頭・表側に各社のデータの分析軸をもつ.

    表1 2社のデータから作成される統計情報の例

    表1 2社のデータから作成される統計情報の例

    秘匿クロス統計技術は準同型暗号技術,差分プライバシーに基づくノイズ付加技術,隔離実行環境を適切に組み合わせることで,定義した要件を満たしている.よって,秘匿クロス統計技術により,個人のプライバシー情報を保護した上で,企業横断の統計的データ活用を実現することができる.

    2.4 社会課題の解決に向けた本技術の活用

    秘匿クロス統計技術によって,企業横断で作成される出力データの価値についても確認し,秘匿クロス統計技術の有用性を評価する必要がある.そのため,企業横断で作成した統計情報から,単独企業では得られない価値が創出されることという要件を満たしているかどうかを検証するために,パートナー企業との実証実験を通して確認することとした.そこで,ドコモは日本航空株式会社(以下,日本航空),株式会社ジャルカードと,スムーズな航空利用の実現を通じて顧客体験価値向上と社会課題の解決に取り組む実証実験を実施した[11].この実証実験では,日本航空が保有する国内線航空券の予約データに関する情報に,ドコモが保有する携帯電話ネットワークの運用データ(携帯電話の位置データを含む)を,本技術を用いて各社が保有するデータを各社において個人を識別できない状態(個人情報ではない状態)に加工した上で組み合わせることで,航空機搭乗前の搭乗者の空港に至るまでの移動状況に関する統計情報を作成した.この統計情報を活用することで,単独企業では得られなかった新たな視点を得ることができ,秘匿クロス統計技術の有用性を確認した.今後は,得られた検証結果を日本航空とジャルカードの施策に活かし,施策の効果を定量的に評価することを通して,秘匿クロス統計技術がもたらす価値のさらなる具体化や明確化に取り組む.詳細は本特集別記事[12]を参照されたい.

    1. ハッシュ関数:出力された文字列からは,入力された文字列を得ることが不可能という特性をもつ一方向関数の一種.任意の長さの文字列を固定長の文字列(ハッシュ値)に変換する関数であり,同一の入力に対しては,対応する同一の文字列が出力される特性をもつ.
    2. ソルト:データをハッシュ化(*8参照)する際に,ハッシュ関数の入力に加えるランダムなデータ.
    3. ハッシュ化:ハッシュ関数により元データからハッシュ値を計算すること.なお,ハッシュ化後に,ハッシュ化する際に用いたソルトを破棄するため,ハッシュ値から元のデータを算出することは不可能である.
    4. ノイズ付加:出力データからプライバシー情報を保護するため,集計表に対して,乱数を付与すること.
    5. 完全性:ソフトウェアやデータが改ざんされていない性質.
    6. 分析軸:各社が保有するデータより規定されるクロス集計表の表頭・表側.

03. あとがき

  • 本稿では,企業横断の統計的データ活用を実現する秘匿クロス統計技術の ...

    開く

    本稿では,企業横断の統計的データ活用を実現する秘匿クロス統計技術の概要について解説した.秘匿クロス統計技術は,隔離実行環境内で非識別化処理により個人を識別できない状態(個人情報ではない状態)に加工したデータを,準同型暗号技術,差分プライバシーに基づくノイズ付加技術を適切に組み合わせた処理を行うことで,データのプライバシー情報を保護しつつ,企業横断の統計的データ活用を可能とする.

    なお,秘匿クロス統計技術の詳細説明,秘匿クロス統計の基盤設計と評価,および基盤を用いたパートナー企業との有用性評価については本特集別記事にて紹介する[12]~[14].

    秘匿クロス統計技術によりデータの活用と保護を両立させ,さまざまな社会課題の解決に繋げることで,データ活用と社会への還元の好循環を産み,社会と産業のさらなる発展に結びつけていきたい.

  • 文献

    開く

    • [1] 寺田 雅之,川上 博,岡島 一郎,篠崎 俊哉,坂下 昭宏:“モバイル空間統計の実用化に向けた取り組み,”情報処理デジタルプラクティス,Vol.6,No.1,pp.35-42,Jan. 2015.
    • [2] 経済協力開発機構(OECD):“OECDビックデータ白書 ―データ駆動型イノベーションが拓く未来社会,”明石書店,2018.
    • [3] EUR-Lex:“Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation) (Text with EEA relevance),”Apr. 2016.
      https://eur-lex.europa.eu/eli/reg/2016/679/oj別ウインドウが開きます
    • [4] California Legislative Information:“1.81.5. California Consumer Privacy Act of 2018 [1798.100 - 1798.199.100].”
      http://leginfo.legislature.ca.gov/faces/codes_displayText.xhtml?lawCode=CIV&division=3.&title=1.81.5.&part=4.&chapter=&article=別ウインドウが開きます
    • [5] e-Gov:“個人情報の保護に関する法律等の一部を改正する法律(令和二年法律第44号).”
      https://www.ppc.go.jp/files/pdf/200612_houritsu.pdf別ウインドウが開きます
    • [6] S. Garfinkel, J. M. Abowd, and C. Martindale:“Understanding Database Reconstruction Attacks on Public Data,”ACM Queue, Vol.16,No.5,pp.28-53, Oct. 2018.
    • [7] 寺田 雅之:“差分プライバシの基礎と動向,”情報処理,Vol.61,No.6,pp.591-599,May 2020.
    • [8] NTTドコモ:“モバイル空間統計.”
      https://mobaku.jp/別ウインドウが開きます
    • [9] 寺田 雅之:“差分プライバシーとは何か,”システム/制御/情報,Vol.63,No.2,pp.58-63,2019.
    • [10] 佐久間 淳,陸 文傑:“⑤準同型暗号を用いた秘密計算技術と実用化に向けた活動,”情報処理,Vol.59,No.10,pp.898-903,2018.
    • [11] 日本航空株式会社,株式会社ジャルカード,NTTドコモ:“JAL,JAL カード,ドコモが,顧客体験価値向上と社会課題の解決に向けて, 「秘匿クロス統計技術」を用いた企業横断でのデータ活用の実証実験を開始〜各社が保有するデータを相互に開示せず作成した統計情報を活用する国内初の取り組み〜,”Oct. 2022.

      https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf(PDF形式:1,834KB)PDF

    • [12] 斧田 佳純,ほか:“秘匿クロス統計技術を用いた企業横断の活用事例―顧客体験価値向上と社会課題の解決に向けた取り組み―,”本誌, Vol.31, No.1, Apr. 2023.
    • [13] 野澤 一真,ほか:“企業横断の統計的なデータ活用における安全性を達成する手法,”本誌, Vol.31, No.1, Apr. 2023.
    • [14] 長谷川 慶太,ほか:“秘匿クロス統計技術の完全性保証方法の設計と実装,”本誌, Vol.31, No.1, Apr. 2023.
このページのトップへ