What Big Data tells: Sampling the Social Network by Communication Channel

“What big data tells: Sampling the social network by communication channel” という論文が出ました。 “What Big Data tells: Sampling the social network by communication channels”, J. Torok, Y. Murase, H.-H. Jo, J. Kertesz, K. Kaski, Phys.Rev.E 94. 052319(2016) arXiv ここではその論文の内容を紹介します。

ICTの発達によって人間関係のコミュニケーションのデータがこれまでにないほど大規模かつ定量的に調べられるようになり、人間関係のネットワーク（社会ネットワーク）の特徴が明らかになってきました。これまでにFacebookなどのSNS、Twitter、携帯電話の通話記録、E-mailなどの様々な電子デバイスのデータに加えて、IoTを利用して個人の物理的な距離をトレースすることにより対面でのコミュニケーションを推定した研究もあります。

これらの情報によって人々がどのように社会的な関係を築くかということについて多くの知見が得られましたが、これらの研究はそれぞれあるコミュニケーション手段の一つ一つを個別に解析した事例がほとんどです。一方で人々は日常的に様々な手段（電話、メール、SNS、チャット、オフラインでの対面での会話）を組み合わせてコミュニケーションをとっています。これらのコミュニケーションの全記録を解析することができればよいのでしょうが、技術的な面だけではなくプライバシーというデリケートな問題も含んでいるため今後も非常に難しいでしょう。（そのような研究事例もありますが、ボランティアを対象としたものとなるのでどうしても小規模な解析に限定されます。）つまり、研究対象のデータとして得られるネットワークというのは、社会ネットワークを部分的にサンプリングしたものにならざるを得ないのです。

この論文で扱っているテーマは、データから得られた「サンプリングしたネットワーク」の特徴がどの程度「全社会ネットワーク」の特徴を再現するか、言い換えるとデータからどの程度全ネットワークの特性を推定できるか、という問題です。もしサンプリングしたネットワークと全ネットワークが顕著に異なる特性を示すのであれば、データから全ネットワークの特性についての情報を限定的にしか得ることができないということになります。既存のデータの解釈が大きく変わることになるため非常に重要な問題と言えます。

f:id:yohm:20170212223223p:plain

実はサンプリングによってネットワーク特性が変わっていることを示す自明な特性があります。それは次数分布（各ノードのリンク数の分布）です。様々なICTデータから社会ネットワークが推定されていますが、ほぼ全てのデータが単調減少な次数分布を示しています。つまり最も頻度の大きい次数は１ということになりますが、これが全ネットワークとは違う特性であることは明白です。実社会では大多数の人が複数の人（ダンバーの仮説によれば典型的には150人程度）と親交があり、一人としか親交がない人は極めて稀であるということには異論がないでしょう。つまり、全ネットワークは何かしらピークを持つ次数分布（以下では単峰型と呼びます）になっていると思われますが、サンプリングしたことによって次数分布が単調減少になっているのです。では他のネットワーク特性も同じようにサンプリングによって変化するでしょうか？

f:id:yohm:20170212223235p:plain

assortativity（隣接ノードの次数相関）を考えてみましょう。様々な社会ネットワークのデータはそれぞれ様々な背景があり独立に調べられているものの、そのどれもが普遍的に正の次数相関を示しています。つまり次数の高いノードは他の高い次数を持つノードと繋がっている確率が高く、反対に低い次数のノードの隣接ノードは低い次数を持つ傾向があります。社会ネットワークには同じ特徴（例えば同じ性別、年代、社会的地位）を持つ人どうしが互いに繋がる傾向があることがわかっており、そのような傾向はHomophilyと呼ばれています。次数の相関についてもHomophilyの一つであるとこれまで解釈されてきました。

しかし、我々はグラフのサンプリングの研究で以下のようなことを明らかにしました。

一般的にassortativityがサンプリング後ももとのネットワークのものが維持されるためにはランダムにノードやリンクを一定確率でサンプリングする必要がある。しかし、そのようにサンプリングを行うと単調減少な次数分布は得られず、ピークを持つ次数分布になってしまう。
ピークを持つ次数分布から単調減少な次数分布を再現するサンプリングの方法を提案した。この方法では単調減少な次数分布と正の次数相関を再現するパラメータ領域がある。このパラメータ領域では、かならず次数分布が正のバイアスを受ける。つまり、必ずしも元のネットワークが正の次数相関を持っていなくても、サンプリング後に正の次数相関を持つ場合がある。

このモデルは高校生の数学でもわかるくらいシンプルなモデルですが、現実の人々の行動のことを考えてももっともらしいモデルです。別の記事で紹介したいと思います。

これは我々が観測可能なデータはサンプリングの影響を強く反映しており、データで正の次数相関が観測されたからといって、全社会ネットワークが正の次数相関を持つとは結論づけることができないということを意味します。データを正しく解釈するためには、どのようにネットワークがサンプリングされるか、言い換えると人々がどのようにコミュニケーション手段を選択しているか、という部分についての理解を深めていくことが重要であることを示唆しています。

このようなネットワークのサンプリングという側面に着目した研究はこれまであまり注目を集めておらず、一般的にどのようなネットワークからどのような手法でサンプリングを行うとネットワーク特性がどう変化するのかといった問題の数理的な理解は不十分です。データの不完全性が問題になるケースは社会ネットワークだけではないため、今後、理論的な研究が進み、様々な複雑ネットワークの研究にも応用されることが期待されます。

yohm's blog

プログラミングや研究などについて

What Big Data tells: Sampling the Social Network by Communication Channel