• R講座 ggplot2を利用した見栄えの良いグラフの作成

    2016年9月5日
    ggplot2とは   ggplot2とは、R言語のグラフィック機能を拡張するパッケージです。本稿ではggplot2を利用した見栄えの良いグラフの作成について解説します。 ggplot2の特徴は、入力すべき情報やオプションが統一されているため、このパターンを覚えれば様々な種類のグラフを作る際にも同じ使い方ができることです。つまり、覚えることが少なくすみますので学習効率が高くなります。 この先、コードを実行しながら読み進める場合は、ggplot2パッケージを読み込みます。 library(ggplot2)   GGPLOT2のフロー   ggplot2の基本パターンは、入力データ、グラフの種類、体裁です。次に例示するコードをご参照ください。入力データはggplot()関数で指定し、グラフの種類はgeom_point()関数で指定しています。それ以降の箇所で細かな体裁を指定します。これらを「+」でつなぎ、1つのグラフを出力します。   ### ...
  • クラスター分析:似ている物同士をグルーピング

    2016年9月5日
    類似度を距離で定量化し、その類似度をもとにグループ分けをします。 グループごとのデータを集計す ...
  • アソシエーション分析:頻出するアイテムの組み合わせ

    2016年9月5日
    概要 同時に発生するデータに基づいて、その規則性を抽出します。相関ルール(アイテム間の組み合わせ規則)ごとの評価指標を抽出します。なお、説明を簡略化するためにアイテムの組み合わせと表現していますが、条件と結果の組み合わせを分析しているため、アイテムの他に性別や年齢などの条件を入れて分析することも可能です。例えば、20代男性(条件)がよく購入する商品(結果)を抽出することができます。 主な適用場面として、同時購入の規則性を利用した商品陳列の最適化や、セット販売、オプションサービスの提案があります。また、購入履歴やページ閲覧履歴から商品やコンテンツのレコメンデーションに使われます。 ■分析例:同時購入を促しやすい商品の組み合わせは?   アルゴリズム 相関ルールの例 商品Aを買うと商品Bも買う: A ...
  • R入門講座 チュートリアル編

    2016年8月2日
    環境構築 RとRstudio R Rとは、統計解析用のプログラム言語・ツールです。Rやパッケージ(Rの拡張機能)はインターネット上で公開されているので、無償で利用できます。 Rを使うメリット ・無料で利用できること ・様々な手法がパッケージとして公開されており、応用範囲が広いこと ・他のプログラミング言語と比べて、記述するコード量が少ないこと ・分析の途中結果を追えること Rの弱点 ・コマンドラインでの作業になるため、直感的な作業ができないこと ・他のプログラミング言語と比べて、処理速度が遅いこと Rに関する情報源 ・Rに関する情報公開を目的としたwiki:http://www.okadajp.org/RWiki/ ・R言語に特化した検索サイト:http://rseek.org/ ・Rによる統計処理:http://aoki2.si.gunma-u.ac.jp/R/ ・R ...
  • 主要解析手法

    2016年7月28日
    業務にデータ分析を取り入れるためには、データ分析でどんなことができるかを把握する必要があります。 ここでは、データ分析でどのようなことができるかを俯瞰します。 ここで紹介するものの他にも様々な解析手法がありますが、まずはここで紹介するものをおさえて、その後いろいろと引き出しを増やしてみてください。     原因と結果がある分析 「原因と結果の関連度合いを把握する」ことや「結果を予測する」ための分析になります。広告効果の予測や、様々な因果関係の構造を調べるために使われます。代表的な解析手法に、回帰分析があります。 解析手順は、モデルの構造を定義し、そのモデルの精度評価や要因間の影響度を定量化します。次に、モデルに予測したいデータの原因となる数値を当てはめ予測します。 次の用語は解析手法を選択する際に役に立つのでおさえておいてください。 ・目的変数(結果):予測対象や分類の基準になる変数 ・説明変数(原因):目的変数に影響を与えるであろう変数   SEM 構成概念(直接測定できないもの)を定量化し、因果関係を分析する手法。回帰分析や因子分析なども包括し、汎用性が高い。   決定木分析 クロス集計を繰り返し、予測・判別のルールを構築する手法。目的変数が2値(yes ...