与えられたデータについて見ていき、現状把握や、顧客満足に影響を及ぼす要因を探っていきます。
kaggle data description (データの説明)
ここからは、実際にデータを整理していきます(コード部分に興味のない人はコードは読み飛ばして頂いて結構です)。
参考:https://www.kaggle.com/cast42/exploring-features
準備
# ライブラリの読み込み
library(data.table)
library(dplyr)
library(ggplot2)
# データの読み込み
train <- fread("./data/case06_train.csv", showProgress = FALSE, data.table = FALSE)
dim(train)
## [1] 76020 371
371項目、7602件のデータセット
group_by(train, TARGET) %>%
summarise(count = n()) %>%
ggplot(aes(x = as.factor(TARGET), y = count)) +
geom_bar(stat = "identity")
TARGETが1(満足していない顧客)は約4%
次のポストによると「num_var4」は利用商品数
https://www.kaggle.com/cast42/santander-customer-satisfaction/exploring-features/comments#115223
group_by(train, num_var4) %>%
summarise(count = n()) %>%
ggplot(aes(x = as.factor(num_var4), y = count)) +
geom_bar(stat = "identity") +
labs(x ="Number of bank products", y ="Number of customers")
group_by(train, num_var4, TARGET) %>%
summarise(count = n()) %>%
ggplot(aes(x = as.factor(num_var4), y = count, fill = as.factor(TARGET))) +
geom_bar(stat = "identity") +
labs(x ="Number of bank products", y ="Number of customers")
「データから価値を創造する」一般社団法人データマーケティングラボラトリー
Copyright© DML All Rights Reserved.