【pythonでの前処理】データの正規化、標準化する方法
データの正規化の方法
単体?か、ベクトル単位によって大きく二通りある
単体の場合:二種類ある
- データの加算平均が0、分散が1になるように調整する(z-score noramalization(標準化))
- データの最小値が0、最大値が1となるように調整する(min-max normalization)
使い分け
前者はガウス分布(A)、後者は一様分布(B)が想定されている。
(*A)正規分布。平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布 ランダムサンプリングの場合、サンプルの分布がガウス分布に近づくことが知られています(中心極限定理という名前がついています)。この性質があるので、ランダムサンプリングを伴う調査では、調査で扱われる指標がガウス分布をとると暗黙のうちに仮定されます。そうすると、分布の中心から極端に遠い値は、サンプルを得る過程での何らかのエラーによるものと考えることができて、解析から除外することもあります。
(*B)サイコロを振ったときの、それぞれの目の出る確率など、すべての事象の起こる確率が等しい場合の分布
ベクトル単位のの正規化方法
次は大きさを1にする正規化する。ベクトルの大きさのことをノルムというが、これを各要素に割っていくことでノルムを1にする。