T法の考えかたは、各項目i(i=1~k)の値xiと真値の回帰比例定数βiからの単回帰で推定される個別の推定値xi/βiを求めて、それら項目の値と真値の相関を表す動特性のSN比ηiで加重平均したもので総合評価の推定値を求めるというものである。
重み付けを行っているとはいえ、単回帰からの推定値の和(平均)がベースとなっているので、MT法(逆行列を用いるもの、以下同)や重回帰分析のように、項目間の相関を考慮しているわけではない。ここでいうところの項目間の相関の考慮とは、項目の擬似相関を排除するべく、相関係数行列の逆行列を用いて偏回帰係数を算出し、それをベースに真値の推定を行うということである。
擬似相関についての例を挙げる。たとえば、項目に身長と体重、真値にBMI(肥満度の指標)をとった場合に、BMIの定義、BMI=体重(kg)÷身長(m)^2から考えると、BMIは身長に対して負の相関、体重に対して正の相関があるはずである。これは正確に言えば、体重を固定した場合の身長に対しては負の偏相関、身長を固定した場合の体重に対しては正の偏相関があるということである。つまり、下記のようなデータ
身長(m) 体重(kg) BMI
1.50 52 23.1
1.60 45 17.6
1.55 57 23.7
1.65 60 22.0
1.75 72 23.5
1.70 80 27.7
1.80 90 27.8
1.85 88 25.7
に対して重回帰分析を行うと、下記のように身長に対する係数はマイナスになり、体重に対する係数はプラスになるということである(BMIの定義と一致する)。
項目 係数
切片 48.85
身長 -29.44
体重 0.3582
MT法についても相関係数の逆行列から距離を求めているので、偏相関とは少し異なるが、数理は似通っている。
さて、T法の場合で、比例定数βiの符号を調べるために、上記のデータを使って、各項目とBMIの単回帰の相関係数を計算してみる。
身長 vs. BMI r=+0.545
体重 vs. BMI r=+0.865
この場合、困ったことが起きる。すなわち単回帰の、身長について、正の相関が現れてしまう(重回帰分析の係数および、BMIの定義からは負の相関となる)。これは、項目である身長と体重の相関関係を無視したことによって生じる、身長とBMIの擬似相関である。
ちなみに、体重を層別して(上記のデータで体重の小さい順にたとえば2,3,3データの組を作って)、その中で身長とBMIの傾向を見るとこれは負の相関になっている。つまり、身長とBMIの単回帰においては、身長と体重の背後関係に引きずられて、実際の関係(偏相関)とは異なった結果になってしまうことを示している。

最初に述べたとおり、T法では単回帰の相関係数の符号がβiの符号と同一であるので、上記のように相関の傾向が逆転する場合や、実際は大きい偏相関があるのに相関がなくなったしまう場合や、またその逆の場合もあり、当然のことながら推定の精度は悪化してしまう。
このように見ると、T法は偏相関係数で推定するMT法や重回帰分析よりも推定精度は原理的に一歩劣るといわざるを得ない。T法はもともと、他のMTシステムや重回帰分析では扱えない非常に項目が多く計算に時間がかかる場合や、項目に多重共線性がある場合、項目のσ=0の場合の方法の提案である。従って、このあたりは、計算速度や多重共線性による精度低下と、項目間の相関を考慮しないことによる精度低下のトレードオフということになる(データの性質によって選びうる手法は限られると考えられるが)。
田口博士いわく「最終的にはSN比の評価である」ということである。項目を多く--しかも多重共線性やσ=0を気にせずに、原理的には無尽蔵に--取ることで、推定の精度を上げようというのがT法の戦略なのであろう。
このような戦略は、パラメータ設計で混合系直交表に多数の制御因子の主効果を割り付ける戦略と通じているように感じられる。すなわち、Box博士のいう列の汚染(交互作用の交絡)は気にせずに、多数の制御因子の主効果を求めるにはどうすればよいか、という問題に対する実践的な解決法の徹底である。
T法も原理的には偏相関から推定する方法よりも推定の精度は落ちるが--項目が同じで、いずれの手法も選べる場合の話--、では項目が非常に多かったり、多重共線性、σ=0の場合にどうするか?という問題の解決として提案されたT法も、実践的な解決策の徹底と言えるであろう。
MT法に話を戻すと、MDを求める数理は偏相関係数の利用であり、重回帰分析の数理と似通ったクラッシクな部分である(Mahalanobis博士の功績)。従って、MT法のオリジナリティーは、予測システムの精度をSN比で評価することと、直交表を用いて項目選択、診断を行うことである。なお、単位空間の概念はすでに1950年代に多変量管理図のところで示されていたとのことである(このことは、宮川雅巳博士の論説に詳しい:過去のblogも参照されたし)。 T法についてはその名称のとおり、戦略からSN比、直交表まで一貫した田口博士のオリジナルと言ってよいものになっている。
※筆者注:「重回帰分析はあてはめなので、推定の精度は悪い」と言われるが、それは既知データだけで推定式を作る場合であって、MT法と同じように、未知データを導入してSN比で評価、項目選択すれば、原因系と全く関係ない項目による説明力の向上の問題は解決されると考える。その場合、重回帰分析で作った式の推定精度は、MT法やT法と遜色がない場合も多いと考えられる(データの性質によるので、最後は田口博士の指摘するとおりSN比の評価である)。
※筆者注:本稿では単位空間の議論は省略している。またT法で使用するのは単相関係数ではないが、項目のβiの符号を簡単に(Excelの関数レベルで)知るために便宜上用いている。
※追記:マハラノビス距離では相関係数の逆行列を使用しているが、重回帰分析の偏回帰係数の算出とは目的も方法が違うようである。数理に詳しい方の助言をいただければ幸いである。
株式会社ジェダイト(JADEITE:JApan Data Engineering InstituTE)
0 件のコメント:
コメントを投稿