解説

　このステップでは、データの規則性を捉えたモデルを作成します。手順は、データセットの作成、検証用のデータセットの分離、モデリングになります。やや技術的な内容を含みますが、今の段階では、こんな手順でモデルを作成するんだと参考程度に捉えてください。ここでのポイントは、モデルを検証するために、モデルの作成用と検証用にデータを分けることです。

8-1. データセットの作成

　収集したデータを解析ソフトで利用できるように整形します。多くの解析ソフトは表形式を想定しており、行は１件のデータ、列は1つの項目に対応させます。また、欠損値や外れ値の処理なども行います。

8-2. モデル作成用、検証用にデータセットを分離

　モデルを評価のために、データセットを複数に分割します。分割されたデータセットはそれぞれ、モデルを作成するためのトレーニングデータ、検証用のテストデータと呼ばれます（評価についてはStep.9で解説します）。

　　本来知りたいのは、これからの来店客がリピータになるかどうか（予測モデルにどれだけ当てはまるか）です。しかし、これからの来店客のデータは無いため、手元にあるデータで検証します。そのために、手元にあるデータの中から検証用のデータを分離して、そのデータのモデルに対する当てはまり具合を、モデル精度の評価に用います。

8-3. モデル作成用のデータセットでモデリング

　トレーニングデータを用いて、実際にモデルを作成します。考えられる複数の手法でモデリングすることをお勧めします。なぜなら、5つぐらいの手法でモデリングすると大抵の場合、3つか4つは同じような結果を返してきますので、大外しをするリスクを減らすことができるからです。

ケーススタディ

　どういった要因がリピートに影響を与えているか、予測モデルを作成していきます。モデルの作成手順の詳細はややテクニカルな内容になってしまうためここでは割愛します。

　リピート率に影響を与える要因（全社）

「TRUE：リピートした」「FALSE:リピートしなかった」に該当します。

ワーク：どのような解釈ができるでしょうか？

次のような解釈ができます。

スタイリストIさんのリピート率は高い（リピート率86%）
カラーを利用した場合（特に女性）、リピート率が高い（Iさん担当分を除きリピート率49%）

リピート率に影響を与える要因（スタイリスト別）

スタイリストCさんの例

ワーク：どのような解釈ができるでしょうか？

次のような解釈ができます。

40、50代のリピート率が高い（リピート率83%）
40、50代以外の年齢層でウェーブをしたらリピート率が高い（リピート率69%）

分析結果まとめ

　分析結果を整理すると次のようになります。

スタイリストIさんのリピート率は高い（リピート率86%）
カラーを利用した場合（特に女性）、リピート率が高い（Iさん担当分を除きリピート率49%）
スタイリストごとにリピート率が高いメニューや得意な顧客層があり、それぞれのリピート率は（40から70％程度）

　このようにデータ分析によって複数の条件を加味して「リピート率に影響を与えている要因とその程度を明らかにする」ことが可能になります。

<< “Step.7 収集した情報を整理、分析する　　　 Step.9 モデルを評価する >>

Step.8 モデルを作成する

解説

8-1. データセットの作成

8-2. モデル作成用、検証用にデータセットを分離

8-3. モデル作成用のデータセットでモデリング

ケーススタディ

リピート率に影響を与える要因（全社）

リピート率に影響を与える要因（スタイリスト別）

分析結果まとめ

　リピート率に影響を与える要因（全社）