2009/06/03

ことしの北海道旅行は・・・

 今年の北海道旅行は、7/20の深夜0:30からフェリーに乗っていくことにした。昔は舞鶴~小樽間は30時間以上かかった気がするが、今は船も高速になり、20時間で到着するようだ(同日の20:45着)。いまや、関西から札幌の航空便は安くなっており、平日なら16000円くらいである。つまり、フェリーで一等船室に乗っていくのと同じくらいの値段なのである。

 今回、それでもあえて船にしたのは、娘にいろんな経験をさせることもあるがやはり、船の旅の醍醐味はなんといっても「なにもしなくていい時間」の享受だ。起きている時間でいえばわずか10時間少し程度あるが、なにもしなくていい時間をのんびりすごしてみたい。

 今回の旅は27日に帰ってくる7泊8日である。まだ詳細は未定であるが、小樽、美瑛、トマム+αの予定である。もし、思わずいいスポットに出会えたらまたこのblogで紹介したい。
 
 もちろん、このblogで紹介した美瑛の「ペンション四季」の予約はもう済ませてある。 

T法と過飽和実験計画

 T法の数理は、項目数(列数)k>データセット数n(行数)となるデータの過飽和実験計画の一種であるといえる。

 過飽和実験計画(Supersaturated Design:SSD)で用いられる殆直交表(一例を図に示す)のレスポンスをT法の信号空間として教示し、各項目の主効果を未知データとして計算する。たとえば項目1の主効果は、項目1の値が1、それ以外の項目の値が0とすれば得られる。そうすると、T法の推定結果は、SSDで単純に主効果を求めた場合の結果と傾向でほぼ一致する。
 よって、T法の精度に関してSSDで言われているような以下のこと(出展は山田秀「実験計画法 方法編」p.134)が当てはまるかもしれない。








(1)候補となる因子が多数のため第1種の過誤を厳密に管理するのは困難  → つまり、効果のない項目を有意として判断してしまう危険性

(2)主要な因子が高々5個程度の少数個の状況において、その因子を選択する場合に効果を発揮  

→工程異常の原因診断など、主要な因子が限られるケースに威力を発揮するのでは  
→予測のように事前に主要な因子がどれくらいあるか分からない場合は危険を伴う
(3)kが2n程度なら主要な因子のうちの3個程度、kが3n程度のばら主要な因子の2個程度は高確率に抽出できる
→T法の事例の場合、項目数が極端に多い場合もあるため注意が必要か

(1)については、現在の品質工学では考慮していない。有意かどうかではなく、主効果がみとめられればその利得は改善(パラメータ設計の場合)や予測(MTシステムの場合)に繰り入れる。それがよいかどうかの判断は、利得の再現性であり、総合推定精度である、というのが品質工学の提案である。

(2)(3)より分かるとおり、kがnに比べて極端に多い場合は、予測精度の面であまり期待しないほうがよいといっている。項目数のほうが多くても計算はできる予測精度まで保証するわけではない。予測精度  は項目を何にするか部分が大きいが、このように手法そのものの限界も知っておくべきであろう。

ただし、SSDとT法ではデータの内容として以下の点が異なるので、以上で述べた過飽和実験計画の徴がすべてT法にあてはまるとは限らない。その違いとは、項目の値の決め方(決まり方)の違いによる「情報の質の違い」である。
SSDでは殆直交表を用いるため、項目間の相関係数は必然的に0に近い値である(おおむね、-0.333~+0.333)。しかも実験計画であるので、項目の値は人為的に任意に決められる。そのときに項目の値はほかの項目の値の影響を受けないように設定される(実験中ではすべて制御できる因子)。

一方、T法は実験計画ではなくデータの観測であるので、項目間の相関は成り行きできまる。またこの成り行きできまるそれぞれの項目の値どうしの相関関係でそれぞれの主効果も変化するので、そこにSSDにはない情報が含まれることになる。SSDとT法が比較できるのは、SSDで要因効果が求められるようなデータのケースだけであるので、上記で展開した論はT法において一般的に言えることではないのかもしれない。

2009/06/02

あまりに天下り的では・・

 たとえば、ゼロ点比例式(誤差は出力の大きさに比例するはずである)における感度(傾き)βを求めるときに最小二乗法(誤差は等分散)をつかうのはなぜだろうか。またたとえば、要因効果図を作成するときに、L18直交表の実験でA列の水準1のSN比のdbで工程平均を求めるのはなぜだろうか。天下り的に品質工学やっているとこのような非常に基本的なことに疑問は持たないだろう。

 ここでは後者の例について考えてみよう。SN比のdb値 η1とη2の算術平均でSN比を総合するということは、

ηT=(η1+η2)/2=[-10log(δ1^2)-10log(δ2^2)]/2=-10log(δ1δ2) (db)

となる。ここで、δ1、δ2は変化率の真数をあらわす。

 さて、最後の式に現れる、δ1δ2 とはいったい何であろうか。δが利得であれば理解できる。その場合は利得の合計の効果である。つまり真数の世界で2倍よくなる条件と3倍よくなる条件では、その積である6倍よくなる、というのは数式の意味の上では理解できる(実際に6倍よくなるかどうかは別問題)。しかし、ここでのδは、個々の設計条件におけるデータの変化率である。この変化率の積が何を意味するのかはまったくもって不明である。

 たとえば、L18実験のA列水準1の工程平均の場合で言えば、No.1~No.9の個々の変化率の総合を考えることになるが、この場合は「平均してどれくらいのばらつき=SN比か」、は「平均してどれくらいの損失が発生しうるばらつきであるか」を考えていることと同じはずである。よって、実験No.1~9のそれぞれの変化率で発生する損失(金額)の平均が、因子A水準1の損失の工程平均である。損失は金額なので比尺度であるため、加法性があり、足したり引いたりできる。損失関数で平均するということは、変化率の2乗つまりSN比の真数γの逆数で平均するということである。

1/γT=(1/γ1+1/γ2)/2=[(δ1^2)+(δ2^2)]/2 (db)

 最後の式は、変化率の2乗の平均になっており、これは分散の加法性をあらわす式と同じである。したがって、制御因子・各水準の要因効果を求めるときは、db値ではなく、損失金額の平均すなわちSN比の真数の調和平均で求めるのが合理的である。もちろん、利得の推定時に行う、利得の積み上げ計算はdbで足し算してよい。

 この計算方法が威力を発揮するのは、偶発的にN1とN2のデータが一致して(またはそれに近い状態になって)、平均すべきSN比の1つが発散してしまう場合である。たとえば実験No.1がそのようであると、従来のようにdbで平均すると、すべての制御因子の第1水準の工程平均はそれに引っ張られて、要因効果図はすべておおきな左肩上がりとなってしまう。ところが、前記のように金額で考えると、実験No.1は損失が0円に近づくだけであり、損失金額の平均には1/9しか影響を与えない。つまり各実験No.ごとに損失を考えているので、工程平均に対する寄与が均等になる。従来のようなdb平均法では、真数の部分が積になっているので、1つの変化率が0に近づくと積である全体がその影響を受けるのでまずいことになる。

 このような、原理原則に基づいた修正提案ということも無駄ではないと思うのであるが、いかがだろうか。