特異な多変量データに対する統計解析手法の導出

更新日2013.04.22

健康情報科学研究室  首藤 信通

はじめに
 より客観的な示唆や考察を得るために,データを介して,知ることのできない事実に迫ろうとする取り組みが,多くの研究分野でなされております.その際,データの源泉(母集団)から得られた有限個の個体(標本)を基に,母集団の特徴を推測する推測統計学が活用される機会は多く,看護学分野もその例外ではありません.
 特に標本が複数の観測項目をもつ多変量データに対しては,多変量解析手法が考えられております.端的に言えば,データがベクトルで与えられている場合であり,例えば,身体計測で得られる(身長,体重,座高,…)のようなデータがこれに対応します.
残念ながら,統計解析手法は,あらゆるデータに対して用いることができるのではなく,ある程度の理詰めで統計解析手法を導く都合上,データに関する仮定を必要とします.通常,量的尺度に対する多変量解析手法の多くは,母集団分布が理論的に扱いやすい多変量正規分布であるという仮定の他,
仮定1.得られたデータにおいて,欠損が生じていない.
仮定2.標本数は観測項目数(次元数)と比べて,十分に大きい.
などをすべて満たす多変量データに対して与えられています.ところが,実際のデータには,これらの仮定を満たさない特異な多変量データが少なからず存在します.
私の研究上の関心は,上記の仮定を満たさない特異な多変量データに対する多変量解析手法を導き,その性質を調べることにあります.

欠測値データにおける線形判別分析
仮定1を満たさないデータは欠測値データと呼ばれ,観測対象の脱落(臨床のデータで言えば,患者が通院をやめる,患者の検査を取りやめるなど)が起こった場合に観測されます.
私は2群から得られたデータの一部が欠測している下で,2群の判別規準を与える線形判別分析における誤判別確率に関する研究を行っています.特に,この誤判別確率は正確に得ることが困難とされており,この確率に対する近似式の導出に関する研究がなされておりましたが,多くはデータに欠測がないという仮定1の下で導出されておりました.従って,これらの近似を計算する際は,欠測がないデータに加工し適用するなどの対処が必要でした.
私は,先行研究で与えられている次元数固定の場合に機能する近似(Okamoto (1963)),次元数が大きい場合にも機能する近似(Lachenbruch (1968))をそれぞれ,無視可能な単調欠測データに対応可能な近似に拡張しました(Shutoh (2012a, 2012b)).Mahalanobis距離を固定させた下で,大規模なモンテカルロ・シミュレーションを行い,欠測を含むデータセットを削除した場合と比較した結果,提案した近似は真の誤判別確率との差が小さい点で,改良されていることを確認しました(図1,2を参照.縦軸:誤判別確率及び近似値,横軸:標本数及び欠測を含む標本数).さらに,誤判別確率を調整する判別規準の提案も行いました(Shutoh et al. (2012)).
なお,本研究の成果の一部は,平成23年度 日本学術振興会 特別研究員奨励費(課題番号23・6926)の助成を受けています.

図1:誤判別確率(●)と次元数固定の場合に機能する近似(■)の比較(次元数:3,左:誤判別確率とOkamoto (1963)の近似,右:誤判別確率とShutoh (2012b)の近似)

図2:誤判別確率(●)と次元数が大きい場合に機能する近似(■)の比較(次元数:7,左:誤判別確率とLachenbruch (1968)の近似,右:誤判別確率とShutoh (2012a)の近似)

高次元データにおける仮説検定手法
仮定2を満たさない高次元データは,遺伝子に関するデータのように,1個体が莫大な数の観測項目を持つ場合などに観測されます.このような高次元データの下では,従来の多変量解析手法を適用することができない問題,所謂,次元の呪い(curse of dimensionality)に直面し,これまで非常に難しい問題の一つとして知られておりました.しかしながら,近年はこの問題に対する議論が活発であり,対応が進んでおります.
私は,高次元データを想定した下で,平均や分散・共分散の構造に関する仮説検定手法の導出に取り組んでおります.また,提案した仮説検定手法に対し,大規模なモンテカルロ・シミュレーションによる検証を行い,その仮説検定の正確さを評価しております(Shutoh & Takahashi (2012), Hyodo et al. (2013)).

参考文献
Hyodo, M., Shutoh, N., Nishiyama, T., Pavlenko, T. (2013). Testing the block-diagonal covariance structure for high-dimensional data. Technical Report No. 13-06, Hiroshima Statistical Research Group, Hiroshima University.
Lachenbruch, P. A. (1968). On expected probabilities of misclassification in discriminant analysis, necessary sample size, and a relation with the multiple correlation coefficient. Biometrics, 24, 823–834.
Okamoto, M. (1963). An asymptotic expansion of the distribution of the linear discriminant function. The Annals of Mathematical Statistics, 34, 1286-1301.
Shutoh, N. (2012a). An asymptotic approximation for EPMC in linear discriminant analysis based on monotone missing data. Journal of Statistical Planning and Inference, 142, 110-125.
Shutoh, N. (2012b). An asymptotic expansion for the distribution of the linear discriminant function based on monotone missing data. Journal of Statistical Computation and Simulation, 82, 241-259.
Shutoh, N., Takahashi, S. (2012). Profile analysis in high-dimensional data. Technical Report No. 12-12, Hiroshima Statistical Research Group, Hiroshima University.
Shutoh, N., Hyodo, M., Pavlenko, T., Seo, T. (2012). Constrained linear discriminant rule via the Studentized classification statistic based on monotone missing data. SUT Journal of Mathematics, 48, 55-69.