主成分分析::調査項目間の類似関係、変数合成(要約)
なるべく情報を落とさずに少数の変数(次元)に要約する分析手法です。
複数項目のデータを2次元の図で視覚化する場合によく使われます。また、調査項目ごとの指向性の強さや関連性を定量化・視覚化することにも使われます。
類似する分析手法にコレスポンデンス分析があります。
属性などのカテゴリカルデータを含むデータを分析する際は、コレスポンデンス分析を使用します。
主な適用場面は、顧客の嗜好性や行動に基づくセグメンテーション、ポジショニングマップの作成が挙げられます。
■分析例:どのようなセグメントに分けることができるか?
アルゴリズム
左図のように2つの変数(x軸とy軸)で表されるデータがあります。これらを左図の斜め線(合成変数)の座標に変換し、回転すると右図になります。ここでは2変数を1変数に縮約しました。このようにして変数を合成します。
用語
・主成分(固有ベクトル):合成した変数
・主成分得点:データと主成分を掛けあわせたもの。
・固有値:主成分の情報の多少(主成分に対するデータのバラツキの大きさ)。もっとも大きい固有値に対応する主成分を第一主成分、その次に大きい固有値に対応する主成分を第2主成分と呼ぶ。
・寄与率:各主成分がデータ全体に対しどれくらいの情報を持っているかは、その主成分が対応する固有値が固有値全体に締めている割合で説明できる。この割合を寄与率、その寄与率を累積したものを累積寄与率と呼ぶ
図の解釈
一番上のグラフは主成分分析の分析結果を図示したものです。
・矢印の長さ:嗜好性の強さ(長いほどバラツキがある、違いがある)。
・矢印の向き:向きが近いほど項目間の関連性が強い。
・プロット(点):類似度の高い調査対象ほど近くにプロットされる。