Special Articles

秘匿クロス統計技術特集 ―企業横断の統計的なデータ活用による社会課題解決―
秘匿クロス統計技術を用いた企業横断の統計的なデータ活用事例
―顧客体験価値向上と社会課題の解決に向けた取組み―

セキュリティ プライバシー保護 人口推計

斧田 佳純(おのだ かすみ)  長谷川 慶太(はせがわ けいた)
中川 智尋(なかがわ ともひろ)  落合 桂一(おちあい けいいち)

クロステック開発部

あらまし
秘匿クロス統計技術とは,データのプライバシー情報を保護しつつ,企業間の統計的データ活用を可能とする技術である.この技術により,従来得られなかった俯瞰的な分析価値の創出が期待される.本稿では,パートナー企業である日本航空株式会社および株式会社ジャルカードとともに実施した,顧客体験価値向上および社会課題の解決に取り組む実証実験において示された,秘匿クロス統計技術を用いた統計的データ活用の有用性について解説する.

01. まえがき

  • 現在,あらゆる分野でデータ活用が活発化し, ...

    開く

    現在,あらゆる分野でデータ活用が活発化し,それに伴い新たな価値の創出に向けた検討が加速している.これまでは,単独企業が保有するデータの活用が中心であったが,今後は,企業の垣根を超えてデータを活用していくことが期待される.こうした傾向においてドコモは,関連法令を遵守し,かつプライバシー情報を保護した上で企業横断での統計的なデータ活用を可能とする「秘匿クロス統計技術」を開発した[1].秘匿クロス統計技術を用いることで,複数の企業が保有するデータを,各社において,個人を識別できない状態(個人情報ではない状態)に加工した上で,データを相互に明かすことなく,すなわち,一連の処理を人の目に触れることなく機械が行うことを技術的に保証して,統計情報を作成することが可能となる.

    ただし,データ活用の観点からは,秘匿クロス統計技術により得られる統計情報が,単に安全なだけではなく,実際の課題解決に有効に活用可能であることが求められる.そこで,ドコモとドコモのパートナー企業である日本航空株式会社(以下,日本航空),および株式会社ジャルカード(以下,ジャルカード)は,スムーズな航空利用の実現を通じて顧客体験価値向上と社会課題の解決に取り組む実証実験[2](以下,本実証実験)を実施し,秘匿クロス統計技術の有用性検証を行なっている.本稿では,本実証実験で実施した企業横断の統計的データ活用での分析のステップとその結果について解説し,秘匿クロス統計技術による企業横断での統計的データ活用の有用性を示す.

02. 秘匿クロス統計技術を用いた実証実験

  • 本実証実験では,空港を利用するすべての人の,居住地域周辺から ...

    開く

    本実証実験では,空港を利用するすべての人の,居住地域周辺から空港に向かい,航空機に搭乗するまでのスムーズな移動の実現を目標として,秘匿クロス統計技術を用いた,航空機搭乗前の搭乗者の移動状況に関する統計的データ分析を実施する.搭乗者のスムーズな移動を実現するためには,空港内での移動や手続きのみならず,空港に至るまでの移動状況に関して分析することが重要である.ドコモが保有する携帯電話ネットワークの運用データ*1※(以下,ドコモ保有データ)は,携帯電話の位置データを含む.このため,秘匿クロス統計技術を用いることで,日本航空が保有する国内線航空券の予約データの搭乗に関する情報(以下,日本航空保有データ)とドコモ保有データを各社において,個人を識別できない状態(個人情報ではない状態)に加工した上で,データを相互に明かすことなく,すなわち,一連の処理を人の目に触れることなく機械が行うことを技術的に保証して,搭乗者の空港に至るまでの移動状況に関する統計情報を作成することができる.この統計情報から得られる人口推移傾向に基づき,スムーズな移動の実現に向けた施策の選定が可能となると考えられる.その結果,航空便の定時出発率の向上などにより,顧客体験価値の向上をはじめとする社会価値の創造が期待される.

    ただし,本実証実験では,データ分析のステップを工夫し設計することが肝心となる.なぜならば,秘匿クロス統計技術を用いた分析は,従来のデータ分析で行われているような,同一のデータセットに対する類似条件による分析が繰り返される探索的なデータ分析が困難な特性を有するためである.この特性は,以下の2点の理由に基づく.

    • 秘匿クロス統計技術は,非識別化処理(個人を識別できない状態(個人情報ではない状態)に加工する処理)において暗号化が行われ,データを保護した状態で,集計処理および秘匿処理が行われる[3]ため,処理にかかる計算コストが大きいことが挙げられる.特に大規模データを繰り返し分析するには,長い処理時間を要するため,実用的な実行時間に収まらない可能性がある.
    • 複数回の集計に対する安全性の保証が挙げられる.秘匿クロス統計技術では,集計結果に対して差分プライバシー*2基準に基づくノイズを付加することで,安全性を保証している.安全性の水準は,定めるプライバシーパラメータに応じて決定されるが,同一のデータセットを用いて秘匿クロス統計技術による集計を複数回実行する場合においては,複数回の集計処理全体で一定の水準以上の安全性を満たす必要性があるため,実行回数が制限される.
    1. 携帯電話ネットワークの運用データ:電気通信サービスを提供する過程で発生するデータの総称.
    2. 差分プライバシー:特定の背景知識や攻撃能力をもつ攻撃者に対しても安全性を保証できることを目的として作成されたプライバシー保護の強度を定量的に測る指標.なお,米国国勢調査においても,「差分プライバシー」を用いた保護手法が採用されている.
    • 電気通信サービスを提供する過程で発生するデータの総称であり,モバイル空間統計®でも利用されている.運用データは,お客さまがご利用の携帯電話の位置データおよびお客さまの属性データを含むものであり,それぞれの定義についてはモバイル空間統計ガイドライン(以下のリンク)を参照.
      https://www.docomo.ne.jp/corporate/disclosure/mobile_spatial_statistics/guideline/

03. 実証実験におけるデータ分析の方法と結果

  • 本実証実験におけるデータ分析のステップを図1に示す ...

    開く

    本実証実験におけるデータ分析のステップを図1に示す.本実証実験は,①仮説検討,②統計情報作成,③仮説検証という3ステップからなる.以降,各ステップの詳細を述べる.

    図1 データ分析のステップ

    図1 データ分析のステップ

    3.1 仮説検討

    はじめに,検証対象とする仮説を検討する.前述の通り,秘匿クロス統計技術を用いたデータ分析は,探索的に実施することが困難であるため,事前に検証対象とする仮説を明確化し,秘匿クロス統計技術を用いて作成する統計情報の内容と,統計情報に基づく仮説検証の方法を設計することが重要となる.よって,日本航空保有データの分析結果および日本航空とジャルカードの業務上の知識に基づき,実験の目的であるスムーズな移動の実現に対して,高い寄与が見込まれる項目を数十項目選定した.さらに,ドコモ保有データによる検証可能性や期待される施策効果を勘案し,選定された項目に関連する仮説の中から検証対象とする複数の仮説を決定した.

    検証対象とする仮説の一例として,「保安検査場から搭乗ゲートまでの距離が長いために,空港内での移動に通常よりも時間を要する搭乗者に対して,空港内もしくは空港外で十分な情報提供やサポートができていないのではないか?」という仮説が挙げられる.この仮説を具体例として,以降のステップを解説する.秘匿クロス統計技術を用いて搭乗者の移動状況に関する統計情報を作成することで,搭乗者全体としてどの時点でどのエリアにいるかの傾向を明らかにすることができる.それにより,多くの搭乗者が空港内外のどこで移動に時間がかかっているかが分かり,搭乗者に対してスムーズな移動を支援するためには空港内外のいずれが効果的かを判別することができると考えられる.

    3.2 統計情報作成

    次に,秘匿クロス統計技術を用いて,搭乗者の移動状況に関する統計情報を作成する.秘匿クロス統計技術で作成される統計情報は,クロス集計表の形式で出力される.本実証実験におけるクロス集計表は,図2に示すように,表側(図中赤)に日本航空が定めた分析軸,表頭(図中青)にドコモが定めた分析軸をもつ.それぞれの分析軸が交差する部分をセルといい,それぞれのセルは両社の分析軸の各項目に該当する搭乗者の人数を表す統計量である.ただし,セルの統計量には,差分プライバシー基準に基づくノイズが付加されている.

    text

    図2 本実証実験におけるクロス集計表イメージ

    日本航空が定める表側の分析軸として,仮説検証への有用性が見込まれる複数の項目を設定する.例えば,前述の仮説を検証するためには,保安検査場から搭乗ゲートまでの距離や搭乗者の航空便への搭乗時刻を項目として設定し,クロス集計表を作成する.ここで,搭乗時刻を搭乗者のスムーズな移動を表す指標として採用する.

    他方,ドコモが定める表頭の分析軸として,移動状況3区分(居住地域周辺に滞在,空港周辺に滞在,移動中を含むその他のエリアに滞在)を設定する.これは,一般に往路における搭乗者の移動は,自宅を出発した後,自宅・空港以外のエリアを通過し,空港に到着する,という流れが想定されるためである.また,移動状況の推移を分析するため,航空便の出発時刻から遡って複数の時点のデータを利用し,各時点におけるクロス集計表を作成する.

    3.3 仮説検証

    秘匿クロス統計技術により作成したクロス集計表を用いて,仮説検証を行う.そのためには,搭乗者のスムーズな移動の指標である搭乗時刻と,仮説ごとの分析項目の関連性を明らかにする必要がある.例えば,前述の仮説を検証するため,搭乗時刻と,保安検査場から搭乗ゲートまでの距離やドコモ保有データに基づく搭乗者の移動状況の関連性を統計的に判定する.

    複数の項目間で関連があるかどうかを明らかにするためには,項目間の関連が独立であると仮定して項目ごとに統計量を算出し,独立でないことを示す(仮説を棄却すると表現される)方法が一般的であり,このような検定方法を独立性検定と呼ぶ[4].ただし,秘匿クロス統計技術を用いて作成したクロス集計表には,安全性の保証のために秘匿処理において差分プライバシー基準に基づくノイズが付加されている.よって,一般的な検定手法をそのまま適用することは難しい.このため,本実証実験においては,差分プライバシー基準に基づくノイズを考慮した手法[5]を利用し,航空便搭乗前の各時点における搭乗時刻と仮説ごとの分析項目の関連性を統計的に判定する.

    3.4 仮説検証結果

    前述した方法で仮説検証を実施した結果,本実証実験で設定した複数の仮説の確からしさを明らかにし,スムーズな移動の実現に向けて高い効果が見込まれる施策を選定することができた.仮説検証結果の一例として,前述の仮説を検証するため,航空機搭乗前の搭乗者の移動状況に関するクロス集計表に基づいて,保安検査場から搭乗ゲートまでの距離と搭乗時刻の関連性を判定した.その結果,保安検査場から搭乗ゲートまでの距離と搭乗時刻の関連性が示され,このことにより,保安検査場から遠い搭乗ゲートを利用する搭乗者に対しては,特に空港内においてスムーズな移動に対する支援が効果的である可能性が示唆された.

04. あとがき

  • 本稿では,秘匿クロス統計技術による企業横断での統計的データ活用の ...

    開く

    本稿では,秘匿クロス統計技術による企業横断での統計的データ活用の有用性を解説した.具体的には,3社共同の本実証実験における秘匿クロス統計技術を用いたデータ分析方法について述べ,企業横断的な統計情報を用いることで,スムーズな航空利用の実現を目的とした施策の選定において,従来得られなかった新たな観点の分析結果を示すことができた.よって,単独企業のデータでは得られない価値を創出する秘匿クロス統計技術の有用性が示された.

    今後は,得られた検証結果を日本航空とジャルカードの施策に活かし,施策の効果を定量的に評価することを通して,秘匿クロス統計技術がもたらす価値のさらなる具体化や明確化に取り組む.ドコモは,パートナー企業との協業により,企業や組織の垣根を超えた統計的データ活用を促進することで,社会課題解決の実現に挑戦していく.

    最後に,本実証実験および本稿執筆に協力いただいた日本航空株式会社,株式会社ジャルカードに感謝の意を表する.

  • 文献

    開く

    • [1] 野澤,ほか:“企業横断の統計的なデータ活用による社会課題の解決―秘匿クロス統計技術の概要―,” 本誌, Vol.31, No.1, Apr. 2023.
    • [2] 日本航空株式会社,株式会社ジャルカード,NTTドコモ:“JAL,JAL カード,ドコモが,顧客体験価値向上と社会課題の解決に向けて, 「秘匿クロス統計技術」を用いた企業横断でのデータ活用の実証実験を開始〜各社が保有するデータを相互に開示せず作成した統計情報を活用する国内初の取り組み〜, ”Oct. 2022.

      https://www.docomo.ne.jp/binary/pdf/info/news_release/topics_221020_00.pdf(PDF形式:1,834KB)PDF

    • [3] 野澤,ほか:“企業横断の統計的なデータ活用における安全性を達成する手法,” 本誌, Vol.31, No.1, Apr. 2023.
    • [4] 国友直人:“応用をめざす 数理統計学,”初版,p.222,2015,朝倉書店.
    • [5] M. Gaboardi, H. Lim, R. Rogers and S. P. Vadhan:“Differentially Private Chi-Squared Hypothesis Testing: Goodness of Fit and Independence Testing,” International Conference on Machine Learning, PMLR, May 2016.
このページのトップへ