2018/03/20

スペクトルデータの場合のSN比の考察(2)

(その1から続く)

 この例に限らず、累積データで解析するのは間違いというのが、筆者の一貫した立場である。

 データを横軸に対して累積するということは、データを平均化してしまうということである(累積値は、使用したデータの平均値×データ数である)。横軸の波長ごとの出力の違いが評価に反映されにくいことになる。これは横軸が期間や時間の場合でも一般的に言えることである。したがって、売り上げなどのデータを期間で累積して、ゼロ点比例のようなデータに変換して解析するのもまずいという意見である。

 平均化されて、ばらつきの情報が失われるばかりではない。スペクトルデータにおける波長の小さい側と大きい側の重要度に優劣はないはずである。λ=400nmの強度データとλ=800nmの強度データの重要度は同じであり、公平に評価されなければならない。しかし累積した場合には、短波長側のデータは累積数が少ないためにデータの絶対値が小さくなってしまい、SN比の評価に反映されづらくなってしまう。仮に長波長側に大きなピークがあれば、その波長の様子が大きくSN比に反映されてしまうことになる。

 また物理的、技術的にも問題がある。出力強度を波長ごとに累積した値に、いったいどんな物理的、技術的意味があるのだろうか。かりに横軸が時間のようなものであればまだ理解できるが、異なる波長ごとに反射・吸収した光の強度(材料種=構造によって変わる)の足し算である。品質工学とは、対象を技術的にあるいは物理的にとらえ、対象の品質(機能の安定性)を評価する学問ではなかったか。その点でも、「形がゼロ点比例風になればいい」といいうのは、あまりにも本質を忘れた、形式的な考え方と感じてしまうのである。
 ※MTシステムの場合は予測できれば何でもよいので、任意のデータの和などの項目を作成することは許されてよいだろう。これは再現性とは別の話である。

 では100歩譲って、上記の累積値に技術的な意味があるとしよう(実際、横軸の物理量によっては意味がある場合もある)。そのような累積値でSN比を求め、再現性もあったとしよう。つまり、SN比の改善に効果のある制御因子(スペクトル分析の場合、分析条件)が見つかったとしよう。さて、この場合の有用と思われる前記の制御因子は、あくまで「累積値データのN1、N2条件の違いを安定化する」効果があるものである。平均値相当のものが安定したということである。しかしこれは、おおもとの目的であった、「各波長ごとで出力強度が安定していること」を保証しない。波長ごとの強度のばらつきが大きくても、累積や平均であれば誤差(率)は小さくなるからである。したがって、累積値で再現性があり、有用な制御因子が見つかり、最適化をしたとしても、データを累積前のオリジナルに戻した時に、果たしてばらつきが改善されているかどうかということである。これはかなり怪しいと言わざるを得ないだろう。累積データが安定していることは、オリジナルのデータが安定していることの(かなり限定された)必要条件でしかない。特に、短波長側のデータは必然的には改善できないだろう。

 オリジナルのスぺクトルデータを用いて評価した場合の再現性の問題は、評価特性の悪さに起因するのであろう(制御因子の交互作用の問題も、おおもとを辿れば評価特性の問題であることが多い)。材料分析のような分析化学的なスペクトルデータでは、波長λの強度データと、λ+Δλの強度データではまったく異なる意味をもつ。材料種によってわずかなΔλの違いでピークを持つため、精密な材料分析が行えるのである。同じ材料を計測してスペクトルデータが横軸方向にもずれてしまう現象は、分析機器側のメカニズムとノイズの作用に起因するものである(材料は固定なので実際にλがシフトするわけではない)。そのような分析機器のメカニズムや働きに立ち返った「機能」の考察が必要である。


株式会社ジェダイト(JADEITE:JApan Data Engineering InstituTE)

1 件のコメント:

匿名 さんのコメント...

興味深い内容をありがとうございます。
累積データによって平均化されたものの場合に、標準SN比による評価で再現性が高まる、というのは、
確かに単なる「ご都合主義」のように感じまして、このようなことをされる方への議論の方針として、
非常にまとまりのある言説を与えていただいていると思います。
今後、自分の説得性も高まる気がいたしました。

しかしながら、
>この例に限らず、累積データで解析するのは間違いというのが、筆者の一貫した立場である。
というのは、「累積データ」の意味範囲にもよりますが、かなり一般化され過ぎのような気がいたしました。
折角、
>かりに横軸が時間のようなものであればまだ理解できるが
とおっしゃっているので、「累積データ=ダメ」ということではない、ということを強調したい意味で、
コメントさせていただきます。

過去に、次のような評価をしたことが自分にありました。

瞬間的な力y[N]の時間変化のデータを拾った後、その時間の累積値を新たに出力Yとし、
時間M[s]を元信号として、N0、N1の出力Yで標準SN比の解析を実施。
このとき、N0の出力を新しい信号Y0とし、そのN0の出力そのものとN1の出力で変動分解)

このケースでは、累積値には物理的な意味があると思います。
瞬間的な力の変動で、累積値は「力の時間による積分」を意味し、これは「力積」です。
あくまでも、力積がどれくらい対象の物体の運動量変化に変換されたか、
しかもそれが外力が働いている短い時間の間に、どのように変化していったかという、
エネルギー変換ならぬ、「力から運動量変化」の変換となります。

(これは、電力量消費の階層から一つ微分した階層である電流電圧変換に対応し、
力学的エネルギー保存則から一つ微分した階層であって、
田口先生ならば、こういうのもエネルギー変換と呼ばれたのではないかと思います
・・・・すみません、語彙力がなく、表現が難しい)

力積から運動量変化への変換の過程で、誤差N1のせいでロスが出るのを評価し、
N0、N1のあいだでロスの出方が安定している条件をよい条件として見出す・・・
というのは、意味のある評価ではないかと考えております。

したがって、私は、累積データで解析するのは間違いとまでは言わないようにしていますが、
何か、これにおいても問題はあるでしょうか。

さて、標準SN比は、元データMから出力yへの入出力関係が「単調増加関数」もしくは「単調減少関数」でなければうまくいかないケースが多いと感じています。
たとえば周期関数であれば、N0において同じyを与えるMが複数あると、データ変換後にその区別がつかないためですね。
そこで、「便法」として、単調関数にするために「累積する」というのがあるのでしょう。
つるぞうさんがおっしゃるように、確かに、こういう便法を、何も考えずにただやるだけは、色々と問題があるだろうという予想が立ちます。

私はスペクトルの事例などは、波長を元データとしている時点で、違うのではないかと思っています。
個人的な意見ですが、そもそも標準SN比による解析の元々の発想は、

標準SN比による解析の本質的な意味は、エネルギー変換などの再現性の高い機能で考えても、
どうしても残ってしまう信号因子による非線形性を、SN比の分母に含めないための回避策である

ということではないかと思いますので、波長を元信号としているのが、そもそもエネルギー変換を考えていない提案なのだと思います。

>出力強度を波長ごとに累積した値に、いったいどんな物理的、技術的意味があるのだろうか

まさにその通りと考えます。波長が強度に動的に変換しているシステムではないですね。
波長は「標示因子」ではないかと。

以上、ご意見いただければ幸いです。