2017-07-03〜07-09 やったことと振り返り

体調と生活リズムが狂ったので、毎週日曜に書くはずが月曜深夜に書いてる。

新しい現場での分析

ソーシャルゲームの分析

  • 業界における基本KPI理解
  • ゲームの理解(興味がなくてつらい)

幸い参考になるslideや記事が多くてとても助かる

kaggleのコンペを中途半端にやった

前回、下記のように書いたので選定してやった。

小さいファイルかつ、followしている人たちが解いた問題にチャレンジしようと思った。

Predicting Red Hat Business Value | Kaggle

データ俯瞰

  • pandasで読み込み
  • pandasで要約統計量と概要情報
  • matplotlib / pandas / seaborn で可視化

弱点

  • データが多いときの可視化方法
  • 連続量の離散化に対する指針がない
  • カテゴリ変数のカテゴリが多いときの対処
  • 時系列データに対して、他のカテゴリ変数を加味したときの対処

PCのスペック

小さいデータであっても、下記をしながらだと足りなくなってくる

  • datasetのmerge
  • 細かい俯瞰を続けるので変数が多くなりmemory消費
  • 調べ物しながらだとChromeが気になる

ipython notebook fileをgithubに移行

前回のQiita移行と同様、自分のコンテンツをGithubに移行した。前節のPCスペックの件もあり、PC移行を考えたときにremoteにあるのは安心できる。notebookならGithubでrenderingしてくれるし、一石二鳥。

マンガでわかる統計学の読み直し

地道にコツコツやるという意味で読み直し。ただし、そんなに読み直したわけでもなく実装がメインになった。 次は回帰分析編の2冊目を読み、無相関の検定の指標等について改めて学ぶ。

得たものは以下のとおり。

カイ二乗

全体の合計数と各カテゴリの合計数から見たときの各セルの期待値と実測値のずれ。問題なし

相関比

各カテゴリ内での指標とカテゴリ間での指標を用いて、全体との比を見る。kmeansなどで使われているのは知っていたが、F検定で途中結果を使っていることを知らなかった。分散分析の観点から見ると納得する。

pythonで実装しながら理解した

ksomemo.github.io/chi2_and_cramels_v.ipynb at master · ksomemo/ksomemo.github.io · GitHub

ksomemo.github.io/corr_ratio_fvalue.ipynb at master · ksomemo/ksomemo.github.io · GitHub

scipyの中身見たり、カイ二乗に関してはどんなときに0-1になるかを等高線図で試したりいい機会になった。

AtCoder ABC 不参加

土曜にもなく日曜はARCだったので、土日のどちらかに061をやろうと思ってたけどできず。次のABCは来週なのでその前にやる。

z chart

前の現場でたまに聞いたグラフ。試しに作ってみた。

ksomemo.github.io/z_chart.md at master · ksomemo/ksomemo.github.io · GitHub

構成要素は下記であり、特に難しいことはない。

  • 月ごとの売上
  • 当月を含む12ヶ月間の累積売上
  • 当月を含む12ヶ月間の移動累積売上12ヶ月間

これよりもっと良いグラフあるだろうという印象。売上はKGIだと思うので、これでいいのかもしれないが変化率がないのでどうなのかなと思った。

Qiita stockers bookmarkletの修正

qiita.com

上記を作ったのだが、下記のようにv1が廃止になる。

http://blog.qiita.com/post/162422014829/deprecating-api-v1
blog.qiita.com

問題点は以下のとおり

  • v2のitem APIにはstock countが付いていない
  • v2にはstockers APIがあり問題ないように見える
    • pageごとに出力するAPIにはresponse headerにTotal-Countが付いている
  • Pythonでは取得できたがbookmarklet(JavaScript)では取得できなかった

結論は以下のとおり。お察しである

まとめ

  • 小さいことを多くやったので、すぐに会得できた
  • ABCもいいけど、kaggleもちゃんとやる

課題

  • まとめより、その小さなことはどんな大きなことに紐付いているか分からない
  • 可視化からの分析方針立ての基本を確立する

対策

  • 大きなことを小さいことにbreak downしたタスク管理を行う
  • 可視化方法の基礎を改めて身につける(可視化実践入門本)
  • 分析プロセスの基礎を改めて身につける(プロセス本2つ)

extremepresentation.typepad.com

データ解析の実務プロセス入門

データ解析の実務プロセス入門

データ分析プロセス (シリーズ Useful R 2)

データ分析プロセス (シリーズ Useful R 2)