このステップでは、データの規則性を捉えたモデルを作成します。手順は、データセットの作成、検証用のデータセットの分離、モデリングになります。やや技術的な内容を含みますが、今の段階では、こんな手順でモデルを作成するんだと参考程度に捉えてください。ここでのポイントは、モデルを検証するために、モデルの作成用と検証用にデータを分けることです。
収集したデータを解析ソフトで利用できるように整形します。多くの解析ソフトは表形式を想定しており、行は1件のデータ、列は1つの項目に対応させます。また、欠損値や外れ値の処理なども行います。
モデルを評価のために、データセットを複数に分割します。分割されたデータセットはそれぞれ、モデルを作成するためのトレーニングデータ、検証用のテストデータと呼ばれます(評価についてはStep.9で解説します)。
本来知りたいのは、これからの来店客がリピータになるかどうか(予測モデルにどれだけ当てはまるか)です。しかし、これからの来店客のデータは無いため、手元にあるデータで検証します。そのために、手元にあるデータの中から検証用のデータを分離して、そのデータのモデルに対する当てはまり具合を、モデル精度の評価に用います。
トレーニングデータを用いて、実際にモデルを作成します。考えられる複数の手法でモデリングすることをお勧めします。なぜなら、5つぐらいの手法でモデリングすると大抵の場合、3つか4つは同じような結果を返してきますので、大外しをするリスクを減らすことができるからです。
どういった要因がリピートに影響を与えているか、予測モデルを作成していきます。モデルの作成手順の詳細はややテクニカルな内容になってしまうためここでは割愛します。
「TRUE:リピートした」「FALSE:リピートしなかった」に該当します。
ワーク:どのような解釈ができるでしょうか?
次のような解釈ができます。
スタイリストCさんの例
ワーク:どのような解釈ができるでしょうか?
次のような解釈ができます。
分析結果を整理すると次のようになります。
このようにデータ分析によって複数の条件を加味して「リピート率に影響を与えている要因とその程度を明らかにする」ことが可能になります。
「データから価値を創造する」一般社団法人データマーケティングラボラトリー
Copyright© DML All Rights Reserved.