2017-06-01〜10 やったことと振り返り

ホント意識しないと忘れる

目次

Coursera Machine Learning終了

NNの誤差逆伝播法が分からないことにつらみを感じて始めたこれも、無事に5週間かけて終わった。week10, 11も本当にいい内容で感謝。 特にパイプラインのどこに注力すべきか、正解率(acc)の改善がどれくらいであるか定量的に測る方法が良かった。前段の処理が完璧だった場合、次の処理によって改善されるのか差分を計測している。

早く終わった理由としては、以下のとおり。

  • 土日はほぼ使ってた
  • コードを書く部分は少ない(フルスクラッチじゃない)
  • 通るかどうか、この値になるべき正解が記されている
  • 日本語訳

本来の目的のNNはなんとなくわかったけど、DNNとして学ばなければいけないことも多いので深追いはしない。 その他では異常検知が楽しかった。積んでいる本(統計からのアプローチ異常検知)とは違い、機械学習からのアプローチがとてもしっくりきた。異常データの特徴を捉えて予測するのではなく、異常であるかどうかを確率を使って判断している。異常特徴は、その後調べるようだった。異常ラベルついた教師データ以外の正常データを用いた学習をし、異常の閾値を決め、正常データの分布との違いから異常と判断する。 Imbalancedなデータに対する見方が変わったので、井出さん本2つとsklearn-contribのパッケージに興味が出てきた。

時系列分析

業務でやってるのを見たことの復習した。本は以下を読んだ。

Rによる時系列分析入門

Rによる時系列分析入門

最初の方に書いてある変化率とかは、時間が溶けるので後回しにした。一番最後の章に書いてある時系列分析の流れを最初に持ってきてほしかった。これを見てからやる気が上がった。

AR/MA/ARMA/ARIMAと説明していくのだけど、ARの時点で階差を項に持つ式を差分方程式?を時系列項のみで表したり、表した結果現れる無限級数の収束をさっぱり忘れていて、保留中。

statsmodels

これも業務でやってるのを見た。

  • ARIMAのpickle loadに問題があった
  • VAR等の状態空間モデルのload に問題があった

どちらもデータを一部削除してから保存する。復元時にデータが足りなくて死ぬ…。どういうことなの。テストコードもエラーになるし、ARIMAにいたっては、ARIMAじゃなくて、ARMAのテストをしていた。英語力が足りず、issue読まれてない(´・ω・`)

ARIMAは復元時に足りていないデータを、データ削除前に保存、modelに足りていないデータを補完でなんとかなった。 状態空間モデルはどうしようもなかった。ググっても全然出てこない。

実践コンピュータビジョン

実践 コンピュータビジョン

実践 コンピュータビジョン

欲しい欲しいと思っていたので買った。きっかけは画像分析のためのCNNをする前の前処理がさっぱりわからなかったこと。以下を見たり読んだりしたけど、コードで分かりたいと思った。

ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎1 | Udemy 画像処理と3次元幾何:コンピュータビジョン基礎2 | Udemy

はじめての画像処理技術(第2版)

はじめての画像処理技術(第2版)

Udemyのコンピュータビジョン動画1は画像処理とは違うが、ベイズをがっつり学ばせてもらった。HMC, MCMC, グラフィカルモデルなどなど。2と最後の本は画像処理をがっつりやっている。

現状は、Python3かつJupyter notebookでやっている。画像に対してPCAをかけるところで固有値分解/特異値分解をよく知らないことに気づき、寄り道中。

AtCoder ABC

Udemyの動画でグラフィカルモデルがDPと関係あったり、Coursera MLを見た後にぐぐるとNNがDPと関係あるとか聞いて、頭の体操も兼ねて参加した。 63, 64に出たけど散々な結果。地道にがんばるしかない。暇があれば過去問題をやる、分からない部分は蟻本等で補完。

まとめ

  • 勉強はしている
  • いろいろ手を出しすぎている
  • さらに寄り道をしている

課題は今後書くようにする