大学紹介

次元数が大きいデータに対する統計解析手法の提案

更新日:2021年4月2日 ページ番号:0003574

健康情報科学研究室 渡邉 弘己<外部リンク>

【はじめに】

世の中の多くの現象や出来事などに関するデータを収集し、統計解析をすることで、その本質を捉えたり、主張したいことのエビデンスを得ようとしたりする取り組みは様々な分野で実施されています。次元数よりも標本サイズの方が大きいデータの場合、広く知られている多くの統計解析の手法を用いることができますが、次元数が標本サイズを超えるようなデータに対して用いることができる手法はそう多くありません。例えば、遺伝子発現データは次元数が数万を超えるにもかかわらず、標本サイズが数十から数百しかない事例が多いため、通常の統計解析手法を用いることができません。そこで、このような次元数が標本サイズに比べて膨大であるようなデータ(高次元データ)に対しても分析可能な統計解析の手法を提案することが、現在の研究テーマの大枠です。ここでは、高次元データに対する平均ベクトルの差のユークリッドノルムの区間推定と二元配置多変量分散分析(Two-way MANOVA)についてご紹介します。

【平均ベクトルの差のユークリッドノルムの区間推定】

2種類のグループの間に差があるかどうかを見るための方法の一つとして、平均ベクトルの差のユークリッドノルムをみる方法が考えられます。このノルムの不偏推定量は非正規母集団の下でChen and Qin(2010)により与えられていますが、区間推定法までは与えられていませんでした。そこで、ある条件を仮定し、標本サイズも次元数も膨大であるという設定の下、マルチンゲール中心極限定理を用いて漸近正規性を証明し、この結果に基づいて、近似信頼区間を導出しました。さらにモンテカルロシミュレーションを実行し、この近似信頼区間の経験的な被覆確率を有限次元、有限標本で確認しました。この結果の一部が下の表です。表より、経験的な被覆確率が名目上の被覆確率に近い値をとることが確認できました。

表: 名目上の被覆確率を0.90、0.95、0.99と設定したときの経験的な被覆確率

(左は各成分がカイ二乗分布に、右は多変量t分布に従っている場合)

カイ二状分布多変量t分布

【Two-way MANOVA】

Two-way MANOVAに対しては、ウィルクスのラムダや、ホテリングのトレース等の方法が良く使用されます。しかし、これらの方法は共分散行列の同等性の仮定が満たされない場合、大きなバイアスが生じることがZhang (2011)によって指摘されています。低次元のデータに対しては、このようなバイアスを回避するための方法が、Harrar and Bathke (2012)やZhang (2011)などにより研究されています。そこで、Watanabe et al (2020)では、ある高次元の枠組みの下で、誤差ベクトルに多変量正規分布を仮定せず、共分散行列の同等性も満たされないデータに対して適用できる新たなTwo-way MANOVAを提案し、モンテカルロシミュレーションにより検出力等を評価しました。

参考文献

S.X. Chen, Y.L. Qin. A two-sample test for high dimensional data with applications to gene-set testing, Ann. Statist. 38 (2010) 808–835.

S.W. Harrar, A.C. Bathke. A modified two-factor multivariate analysis of variance: asymptotics and small sample approximations, Ann. Inst. Statist. Math. 64 (2012) 135–165.

M. Hyodo, H. Watanabe, T. Seo. On simultaneous confidence interval estimation for the difference of paired mean vectors in high-dimensional settings, J. Multivariate Anal. 168 (2018) 160–173.

H. Watanabe, M. Hyodo, S. Nakagawa. Two-way MANOVA with unequal cell sizes and unequal cell covariance matrices in high-dimensional settings, J. Multivariate Anal. 179 (2020).

J.T. Zhang. Two-way MANOVA with unequal cell sizes and unequal cell covariance matrices, Technometrics 53 (2011) 426–439.