2006/10/09

MT法を他手法から相対化する試み

 以前関西の研究会で(MT法との比較で)従来法のパターン認識の勉強にと、石井健一郎「わかりやすいパターン認識」
http://www.amazon.co.jp/gp/product/4274131491/ref=sr_11_1/250-8920752-7542600?ie=UTF8
が紹介された(このときの講師はMHIのKさんという方だがなかなかのナイスガイ、いやイケメンなのだ)。
入門書といいつつ下名のようなこの筋の門外漢には、数式をきっちり追って内容を読み込むのは一目して無理と感じたので(半分くらいは理解したつもりであるが)、この筆者が言わんとするココロのみをザッと理解することを試みた。

以下部分的に本書を引用してMT法との比較を行いながら、論点を整理していこう。(『  』が本書からの引用)

『特徴量を増やせばそれだけ情報量が増え、識別率も上昇すると期待するが、これは必ずしも得策ではない』(p.99)
この理由として本書では、以下の3点を挙げている。
 (1)相関の高い特徴の組が混入しやすくなる。
 (2)計算量が膨大になる。
 (3)過学習による未知データの認識率の低下を招く(ヒューズ現象)。
したがって、パターン認識においては次元削減が重要な課題であり、その方法としてKL展開(主成分分析に近い?)などの主要が有用であるというのである。

 最新の研究論文も読まず、入門書の表記だけを見て言うのはフェアではないかもしれないが、以上のようなことは、MT法の学習者ならすぐさま、以下のような回答を用意して「MT法では解決済みの問題である」と言えるであろう。すなわち、
 (1)' 共線性問題であり、すでに相関行列が正則でない場合のMTA法、TS法、T法という方法が提案されている。
 (2)' 行列を用いるから計算が望大になるのであり、直行展開によるTS法や、それすら行わない主効果(パターンからの差)によるT法が提案されている。
 (3)' ヒューズ現象は評価式を当てはめによって作成しているために起こる現象であり、重回帰分析や決定木などで項目数が過去のデータ数と同じになると完全に過去の現象が項目の関数で説明できてしまう(ロト6の1等当選番号の100%的中回帰式も作れる。もちろん将来のデータを予測できる保証はなにもない)。MT法の場合は「基準空間」という概念の導入で当てはめではない、基準空間パターンへの適合度合いを評価している。
 また、次元削減については、直交表による項目選択と、SN比という尺度で予測精度を評価することで明確かつシンプルにその方法論が示されている。

 もう1つ引用する。
『ベイズの誤り確率の推定は統計的パターン認識における未解決かつ重要な問題の1つ』(p.95) 
 つまり、ベイズ統計を用いる限りにおいては、分布の重なり部分に関するある種の推定誤差というものが必然的に発生するので、正確な真値(ここではクラス分け)の推定ができないというのである。分布が不明であり、またクラス分けが微妙な分布の裾野の領域にはもともとサンプルが少ないのだから、まあアタリマエといえばそのとおりである。
 しかし、タグチの場合は問題の立て方そのものが違ったと言える(「正しく問題を立てた時点で、その問題はほとんど解決している」という先人の言葉もある)。
 MT法では(またタグチのパラメータ設計でも)、真値や分布が不明の状態で、SN比という新しいものさしを導入して、認識システムの確からしさを評価している。つまり、「真値を正確に求めよう」という従来のアプローチと根本が異なるのである。
 MT法の計算に用いられている(TS法以降はそれすら用いられていないが)マハラノビス距離の背後にはその導出の過程で正規分布が仮定されているが、その分布を利用しようというのではない。
 実際の対象では分布は不明である(正規分布はありえない)ので、設計した認識システムにどれくらいの確度があるかSN比で評価・改善していこうという現実的な提案をしているのである。これはパラメータ設計における直交表の内側因子の直交性の評価(下流再現性、主効果によるロバスト設計)と同じアプローチである。
(MT法の単位空間の導入の話までは広げすぎなので機を見て次回に譲る)

 MT法はタグチのパラメータ設計と同様、目的(空間・機能)からのずれや不確かさを真値が不明でも評価できるようにしたものである。実際に我々が扱う系はいつも因子間に相関や交互作用があり、またその分布はほとんど不明である。ここに分布を仮定したり、実際のデータへの当てはめを行うのではなく、複雑怪奇な現実のデータにSN比というモノサシを導入して均一なパターンからのずれや、パラメータ設計であれば因子の直交性・加法性・・・の程度を評価しているのである。
 つまり、MT法(もちろんタグチのパラメータ設計も)は、判別分析(パラメータ設計に対してはフィッシャーの実験計画法)のような現象の記述のための数理統計ではなく、設計(Sysnthesis)のための手法である。
 本書で記載されているいろんな統計的パターン認識手法と比較して、MT法の特徴的な部分はこのあたりに出ていると言えるだろう。このことを品質工学では、技術的アプローチと科学的アプローチの違いといっている。

 本書には他にも「醜いアヒルの子の定理」の話(p.100)から技術的に特徴の重要性を判断することの重要性に話が展開されており、これはタグチが項目に固有技術的判断や特徴を入れるべきでないとしていることとの相違性を考えることができるし、「毒りんごにあたらない方法」(p.164)では、誤り率と毒死率の話から、タグチの損失関数を連想することも可能である。

 このような本は、MT法と他の手法とを比較することで、MT法の考え方や独自性を再認識するの好適であろう。従来法とMT法の比較はアプローチは目的の違いであり優劣ではない。従来法も知らず、ただMT法を唱えるのは危険である。考えなくなった時点でその人にとってタグチはブランドか宗教になってしまう。

株式会社ジェダイト(JADEITE:JApan Data Engineering InstituTE)