4月の振り返りと5月の目標
4月の振り返り
やったこと
機械学習
最近、機械学習のアルゴリズムを人に説明することの難しさを知り、 まずは自分でアルゴリズムについてよく理解できていないとダメだよねということで、決定木を自分で実装してみました。 よく使われるアルゴリズムなので簡単に実装できるかと思っていたのですが、 再帰的にNodeを実装したりpruningのアルゴリズムが分からなかったり
Kaggle
4月公開されたKaggleのLearnページLearn | Kaggleが非常によくできており、 Machine LearningとRを学びました。
あと、現在開催中のコンペに参加してみました。 TalkingData AdTracking Fraud Detection Challenge | Kaggle 今の所いい結果は出せていないですけど、データの取得から結果の出力までの一連の流れは掴んでおきたいです。
R
Kaggleのカーネルを読むために始めました。 今月は環境構築とStanでMCMCを少し。個人的にはPyMCよりこっちの方が好き
StanとRでベイズ統計モデリング (Wonderful R)
- 作者: 松浦健太郎,石田基広
- 出版社/メーカー: 共立出版
- 発売日: 2016/10/25
- メディア: 単行本
- この商品を含むブログ (10件) を見る
ビッグデータ
業務だとGBのデータしか触れる機会はないのでMongoDBで十分なのですが、いい加減独学で何かやろうかと。 HadoopとSparkで迷いましたが、Sparkの方を先に勉強しようと思います。
ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)
- 作者: 西田圭介
- 出版社/メーカー: 技術評論社
- 発売日: 2017/09/22
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
この本はCRISP-DMに沿ったデータ分析のフローを実践しており、 データの前処理からモデル評価までを1つのフローで行うアーキテクチャの構築方法が書かれていました。 設計次第で分析の試行回数を稼げるということなので、実務やKaggleにも活かせそうな内容ですね。
アプリケーションエンジニアのためのApache Spark入門
- 作者: 新郷美紀,今井雄太,河村康爾,木村宗太郎,外賀伸治,須田桂伍,高木章光,田中裕一,森下雄貴
- 出版社/メーカー: 秀和システム
- 発売日: 2018/02/17
- メディア: 単行本
- この商品を含むブログを見る
セキュリティ
情報処理安全確保支援士の勉強をした。 勉強内容はWebサーバへの証明書導入だったり、Webアプリケーション開発の際のCSRF対策だったり以外と実務に生きていますね。 今後は、社内インフラや業務プロセス改善へ向けてフィードバックしていきたいです。
Web開発
久々にアプリケーションの開発の仕事がありました。 サーバーサイドはbottleによる簡単なコントローラの実装で問題ないのですが、 フロントサイドではVue.jsが使われていて、かなり困る。 WebpackやVuex、Vue routerの使い方を学びトイモデルを実装しました。
読書
主にロジカルシンキングとデータ分析プロジェクトの進め方に関する本を読みました。
ジムへ通う
先月の徹夜で体力不足を実感したので、ジムへ通うことに。 室内で走るのは以外に気持ちよく無理なく続けられそう
5月の目標
ディープラーニングやる以前に統計学の基礎が足りていないと実感しているので 頻度統計学->ベイズ統計学->機械学習->ディープラーニング->強化学習の優先順位で勉強していこうと思います。
やりたいこと(優先度順)
Kaggle
Apache Sparkを利用してKaggleのコンペに参加しようかと思います。
R
友人のおすすめ本
- 作者: H.ウィッカム,石田基広,石田和枝
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 3人 クリック: 2回
- この商品を含むブログを見る
可視化の文法?が分かるようになるらしいです。
機械学習
この本に書かれている内容は自分で実装できるようにしておきたいです
- 作者: 平井有三
- 出版社/メーカー: 森北出版
- 発売日: 2012/07/31
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 7回
- この商品を含むブログ (5件) を見る
資格
6月に受ける予定の資格試験の勉強
- 統計検定準1級
- TOEIC 900