バックグラウンドノイズのあるデータのクラスタリングについて

更新日2017.05.31

健康情報科学研究室 野津昭文

【はじめに】

 クラスタリングとは、複数の観察対象についていくつかの特性を計測し、そのデータから観察対象をクラスターと呼ばれるグループに分割する方法です。その適用例として、例えば遺伝子発現データから患者をいくつかのグループに分割し、それぞれのグループに適した治療を行うことで、より効果的な治療を行うことが可能となります。また別の例として、商品の購買記録を用いて顧客をクラスターに分類し、各クラスターの特徴を分析することで、購入パターンが似ている顧客に対して効率的にアプローチを行うことが可能となります。

 実際にクラスタリングを適用する際に、バックグラウンドノイズの存在が問題となることがあります。人工データを用いてこの問題について考えてみます。二つの多変量正規分布からデータ生成し、次に一様乱数を生成し、それらをまとめたデータの散布図を作成したものが図1となります。二つの正規分布からのデータは二つのクラスターと考え、また一様乱数はバックグラウンドノイズと見なします。バックグラウンドノイズとは図1にあるようにクラスターを構成しないようなデータになります。このデータから、バックグラウンドノイズを除去しつつ、二つのクラスターを検出する問題を考えます。例えば、Allard and Fraley (1997)では、特別な航空写真から地雷原を推定する問題を考えています。航空写真には石などの地雷以外のものも現れるため、本研究で考察している問題に相当します。

 本研究ではバックグラウンドノイズが存在する場合にも適用できる新たなクラスタリング手法を提案し、その性能をシミュレーションや実データへの適用を通して検討したものになります。なお本研究の詳細はNotsu and Eguchi (2016)をご参照ください。また本研究は統計数理研究所の江口真透先生との共同研究となっています。

 

【提案手法】

 クラスタリングは大別すると階層型クラスタリングと分割型クラスタリングに分けることができます。分割型クラスタリングの代表的な手法としてk-meansがあります。これは、クラスターの数だけクラスターの中心を考え、各データ点をクラスターの中心までの距離が一番小さくなるクラスターに分割します。各データ点からその点が属するクラスターの中心までの距離の和が最小となるようにクラスターの中心を選びます。しかしk-meansではユークリッド距離を考えるため、クラスターは円形になりますが、実際のデータは楕円形になることがあります。そこで本研究では、平均構造だけでなく、分散構造も推定することで、楕円型のクラスターにも対応できるようにしました。またk-meansの問題点として、外れ値に影響され,適切にクラスターを検出できないことがあります。バックグラウンドノイズは大量の外れ値と見なすこともできますので、そのようなデータが存在する場合にはk-meansは直接適用することができません。そこで外れ値の影響を除去できるロバスト推定の手法を用いることを考えました。特に強力なロバスト推定の方法として,近年多くの適用例があるガンマダイバージェンスを用いたロバスト推定を適用しました(Fujisawa and Eguchi, 2008)。各クラスターの平均構造と分散構造をロバスト推定することで、バックグラウンドノイズが含まれていてもクラスターの構造を検出することができます。その後、各データ点をクラスターの中心までのマハラノビス距離が最小となるクラスターに割り振り、またその距離が閾値を越えたときはバックグラウンドノイズと見なすことにしました。

 

【結果とまとめ】 

 図1のデータに対して、提案手法を適用した結果が図2になります。上手くクラスターの構造を検出すると同時に、バックグラウンドノイズも検出していることが分かります。

 本研究ではバックグラウンドノイズが存在する場合の新たなクラスタリング手法を提案しました。クラスターの形が楕円型でも適用できるためより柔軟なクラスタリングが可能となっています。また、強力なロバスト推定の手法を用いているため、ノイズの個数が多くても適用可能となっています。

図1 二つの多変量正規分布から生成したデータと一様分布から生成したデータ

 

図2 提案手法の適用結果。赤が一つのクラスター、黒がもう一つのクラスターとなり、緑がバックグラウンドノイズとなる

 

【参考文献】

Allard, D., and Fraley, C. (1997). Nonparametric Maximum Likelihood Estimation of Features in Spatial Point Processes Using Varonoï Tessellation. Journal of the American Statistical Association, 92(440), 1485-1493.

Fujisawa, H., and Eguchi, S. (2008). Robust Parameter Estimation with a Small Bias against Heavy Contamination. Journal of Multivariate Analysis, 99(9), 2053–2081.

Notsu, A., and Eguchi, S. (2016). Robust Clustering Method in the Presence of Scattered Observations. Neural Computation, 28 (6), 1141-1162.