MT法で質的変数はどう扱うべきか
― ダミー変数化して相関係数を求めてもよいのか ―
MTシステム、特にMT法でパターン認識や異常判別を行う場合、質的変数の扱いには注意が必要である。
MT法は、正常データから単位空間を作り、各データがその正常・均質な状態からどれだけ離れているかをマハラノビス距離で評価する方法である。その計算では、各変数の平均、標準偏差、相関係数を用いる。つまり、基本的には「連続量」を前提にした手法である。
一方、質的変数には、材料種、設備名、作業者、工場、品種、処理条件の有無などがある。これらは数値ではなく分類情報であり、そのままでは平均や標準偏差、相関係数の意味があいまいになる。
では、質的変数をダミー変数化してMT法に入れてよいのだろうか。
結論から言えば、数学的には可能だが、実務上は慎重に扱うべきである。
たとえば材料がA、B、Cの3種類ある場合、A材、B材、C材をそれぞれ0/1のダミー変数に変換できる。しかし、3列すべてを入れると「A+B+C=1」という完全な線形従属が生じ、相関行列の逆行列が求められない。したがって、回帰分析と同様に、どれか1水準を基準として落とす必要がある(数量化処理)。
ただし、1列落とせば問題が解決するわけではない。ダミー変数の相関係数は、カテゴリーの出現頻度に強く影響される。たとえば、単位空間内でA材が90件、B材が9件、C材が1件しかない場合、C材のダミー変数はほとんど0で、たまに1になる。このような変数は標準化後に極端な影響を持ち、MT距離を不自然に大きくすることがある。
つまり、MT法が本来見たい「正常パターンからの総合的なズレ」ではなく、「少数カテゴリーに属しているかどうか」を強く検出してしまう危険がある。
特に注意すべきなのは、名義尺度である。材料メーカー、工場、作業者、品種、色、工法などは、本来順序を持たない。これらをA=1、B=2、C=3のように番号化するのは不適切である。AとBの差、BとCの差に数量的意味がないからである。
一方、処理あり/なし、設備ON/OFFのような2値変数であれば、0/1変数として使える場合もある。ただし、①単位空間内に0と1が十分含まれていること、②一方に極端な偏りがないこと、③そしてその変数を判別に使う意味があることを確認すべきである。
また、外観ランクや評価ランクのような順序尺度であれば、点数化して使える場合がある。ただし、単にA=1、B=2、C=3とするのではなく、不良率、損失、機能低下度、顧客影響度など、意味のある数値に変換することが望ましい。
実務的に最も自然なのは、質的変数をMT距離の中に無理に入れるのではなく、層別条件として使うことである。
たとえば材料が違えば、正常状態の平均値やばらつき、変数間の相関構造そのものが異なる可能性が高い。この場合、材料A用、材料B用、材料C用に単位空間を分けた方が合理的である。設備や工場、品種についても同様である。
もちろん、層別しすぎるとデータ数が不足する。MT法では変数数よりも十分多いサンプル数が必要であり、実務的には少なくとも変数数の3倍、できれば5~10倍程度のデータがほしい。データ数が不足する場合は、変数を減らす、層別の粒度を粗くする、あるいは別の判別手法を検討する必要がある。
まとめると、質的変数をダミー変数化して相関係数を求めること自体は可能である。しかし、それをそのままMT法の相関行列に入れると、相関行列の特異性、カテゴリー比率の偏り、距離の解釈の歪みが生じやすい。
したがって、MT法における質的変数の扱いは次のように考えるとよい。
2値変数は条件付きで使用する。順序尺度は意味あるスコアに変換する。名義尺度は原則として層別条件として使う。
一言で言えば、質的変数はMT距離に無理に入れるより、単位空間を分けるための条件として使う方が、工学的には自然で安全である。



