- 2016年9月5日
商品レビューや口コミ、問い合わせ、クレーム等顧客の声を分析するために、「テキストマイニング」といわれる手法があります。
テキストマイニングでは、文章などの定性的なデータを定量的なデータに変換し、様々な解析手法を適用します。
文章等の定性的なデータを人海戦術で処理していたものを、分析を用いて自働化・半自動化することで、業務効率向上による人件費の削減や、システム化が可能になります。
テキストマイニングで用いられる手法に「形態素解析」「ワードカウンティング」「共起分析」などがあります。
形態素解析は、機械が単語を認識するための手法で、文章を単語などに分けます。
ワードカウンティングでは、形態素解析で切り分けられた単語の各文章中における出現頻度を集計します。
アウトプットはクロス集計表をイメージしてください。この集計表では定量データに変換されているため、さまざまな解析手法を適用することができます。
共起分析では、単語同士のつながりを分析します。例えば、同じ文章中に出現しやすい単語をネットワークで表現します。
「R」に関連するTwitterを共起分析した例
- 2016年9月5日
コレスポンデンス分析は、ポジショニングを直感的に理解できるマップを提供します。
実数だけでなく、カテゴリーデータも分析できるため、適用範囲が広い分析手法です。
また、クロス集計表からでも分析できます。対応分析や数量化III類と同様の手法です。類似する分析手法に主成分分析があります。
主な適用場面は、ポジショニングマップの作成や、クロス集計結果の視覚化が挙げられます。
■分析例:ターゲット世代と各社ブランドの関係は?
アルゴリズム
主成分とほぼ同等のアルゴリズム(ともに固有値問題)です。
左図のように2つの変数(x軸とy軸)で表されるデータがあります。
これらを左図の斜め線(合成変数)の座標に変換し、回転すると右図になります。
ここでは2変数を1変数に縮約しました。このようにして変数を合成します。
用語
・主成分(固有ベクトル):合成した変数
・主成分得点:データと主成分を掛けあわせたもの。
・固有値:主成分の情報の多少(主成分に対するデータのバラツキの大きさ)。もっとも大きい固有値に対応する主成分を第一主成分、その次に大きい固有値に対応する主成分を第2主成分と呼ぶ
・寄与率:各主成分がデータ全体に対しどれくらいの情報を持っているかは、その主成分が対応する固有値が固有値全体に締めている割合で説明できる。この割合を寄与率、その寄与率を累積したものを累積寄与率と呼ぶ
図の解釈
一番上のグラフはコレスポンデンス分析の分析結果を図示したものです。
・原点からの距離:嗜好性の強さ(長いほどバラツキがある、違いがある)。
・原点からの向きの向き:向きが近いほど項目間の関連性が強い。
・プロット(点):類似度の高い調査対象ほど近くにプロットされる。
- 2016年9月5日
ggplot2とは
ggplot2とは、R言語のグラフィック機能を拡張するパッケージです。本稿ではggplot2を利用した見栄えの良いグラフの作成について解説します。
ggplot2の特徴は、入力すべき情報やオプションが統一されているため、このパターンを覚えれば様々な種類のグラフを作る際にも同じ使い方ができることです。つまり、覚えることが少なくすみますので学習効率が高くなります。
この先、コードを実行しながら読み進める場合は、ggplot2パッケージを読み込みます。
library(ggplot2)
GGPLOT2のフロー
ggplot2の基本パターンは、入力データ、グラフの種類、体裁です。次に例示するコードをご参照ください。入力データはggplot()関数で指定し、グラフの種類はgeom_point()関数で指定しています。それ以降の箇所で細かな体裁を指定します。これらを「+」でつなぎ、1つのグラフを出力します。
### ...
- 2016年9月5日
類似度を距離で定量化し、その類似度をもとにグループ分けをします。
グループごとのデータを集計す ...
- 2016年9月5日
概要
同時に発生するデータに基づいて、その規則性を抽出します。相関ルール(アイテム間の組み合わせ規則)ごとの評価指標を抽出します。なお、説明を簡略化するためにアイテムの組み合わせと表現していますが、条件と結果の組み合わせを分析しているため、アイテムの他に性別や年齢などの条件を入れて分析することも可能です。例えば、20代男性(条件)がよく購入する商品(結果)を抽出することができます。
主な適用場面として、同時購入の規則性を利用した商品陳列の最適化や、セット販売、オプションサービスの提案があります。また、購入履歴やページ閲覧履歴から商品やコンテンツのレコメンデーションに使われます。
■分析例:同時購入を促しやすい商品の組み合わせは?
アルゴリズム
相関ルールの例
商品Aを買うと商品Bも買う: A ...
- 2016年8月2日
環境構築
RとRstudio
R
Rとは、統計解析用のプログラム言語・ツールです。Rやパッケージ(Rの拡張機能)はインターネット上で公開されているので、無償で利用できます。
Rを使うメリット
・無料で利用できること
・様々な手法がパッケージとして公開されており、応用範囲が広いこと
・他のプログラミング言語と比べて、記述するコード量が少ないこと
・分析の途中結果を追えること
Rの弱点
・コマンドラインでの作業になるため、直感的な作業ができないこと
・他のプログラミング言語と比べて、処理速度が遅いこと
Rに関する情報源
・Rに関する情報公開を目的としたwiki:http://www.okadajp.org/RWiki/
・R言語に特化した検索サイト:http://rseek.org/
・Rによる統計処理:http://aoki2.si.gunma-u.ac.jp/R/
・R ...
- 2016年7月28日
業務にデータ分析を取り入れるためには、データ分析でどんなことができるかを把握する必要があります。
ここでは、データ分析でどのようなことができるかを俯瞰します。
ここで紹介するものの他にも様々な解析手法がありますが、まずはここで紹介するものをおさえて、その後いろいろと引き出しを増やしてみてください。
原因と結果がある分析
「原因と結果の関連度合いを把握する」ことや「結果を予測する」ための分析になります。広告効果の予測や、様々な因果関係の構造を調べるために使われます。代表的な解析手法に、回帰分析があります。
解析手順は、モデルの構造を定義し、そのモデルの精度評価や要因間の影響度を定量化します。次に、モデルに予測したいデータの原因となる数値を当てはめ予測します。
次の用語は解析手法を選択する際に役に立つのでおさえておいてください。
・目的変数(結果):予測対象や分類の基準になる変数
・説明変数(原因):目的変数に影響を与えるであろう変数
SEM
構成概念(直接測定できないもの)を定量化し、因果関係を分析する手法。回帰分析や因子分析なども包括し、汎用性が高い。
決定木分析
クロス集計を繰り返し、予測・判別のルールを構築する手法。目的変数が2値(yes ...