データ分析学習記録(仮)

データサイエンス・AI・Web・エンジニアのキャリアについて

4月の振り返りと5月の目標

4月の振り返り

やったこと

機械学習

最近、機械学習アルゴリズムを人に説明することの難しさを知り、 まずは自分でアルゴリズムについてよく理解できていないとダメだよねということで、決定木を自分で実装してみました。 よく使われるアルゴリズムなので簡単に実装できるかと思っていたのですが、 再帰的にNodeを実装したりpruningのアルゴリズムが分からなかったり

Kaggle

4月公開されたKaggleのLearnページLearn | Kaggleが非常によくできており、 Machine LearningとRを学びました。

あと、現在開催中のコンペに参加してみました。 TalkingData AdTracking Fraud Detection Challenge | Kaggle 今の所いい結果は出せていないですけど、データの取得から結果の出力までの一連の流れは掴んでおきたいです。

R

Kaggleのカーネルを読むために始めました。 今月は環境構築とStanでMCMCを少し。個人的にはPyMCよりこっちの方が好き

ビッグデータ

業務だとGBのデータしか触れる機会はないのでMongoDBで十分なのですが、いい加減独学で何かやろうかと。 HadoopとSparkで迷いましたが、Sparkの方を先に勉強しようと思います。

この本はCRISP-DMに沿ったデータ分析のフローを実践しており、 データの前処理からモデル評価までを1つのフローで行うアーキテクチャの構築方法が書かれていました。 設計次第で分析の試行回数を稼げるということなので、実務やKaggleにも活かせそうな内容ですね。

アプリケーションエンジニアのためのApache Spark入門

アプリケーションエンジニアのためのApache Spark入門

セキュリティ

情報処理安全確保支援士の勉強をした。 勉強内容はWebサーバへの証明書導入だったり、Webアプリケーション開発の際のCSRF対策だったり以外と実務に生きていますね。 今後は、社内インフラや業務プロセス改善へ向けてフィードバックしていきたいです。

Web開発

久々にアプリケーションの開発の仕事がありました。 サーバーサイドはbottleによる簡単なコントローラの実装で問題ないのですが、 フロントサイドではVue.jsが使われていて、かなり困る。 WebpackやVuex、Vue routerの使い方を学びトイモデルを実装しました。

読書

主にロジカルシンキングとデータ分析プロジェクトの進め方に関する本を読みました。

ジムへ通う

先月の徹夜で体力不足を実感したので、ジムへ通うことに。 室内で走るのは以外に気持ちよく無理なく続けられそう

5月の目標

ディープラーニングやる以前に統計学の基礎が足りていないと実感しているので 頻度統計学->ベイズ統計学->機械学習->ディープラーニング->強化学習の優先順位で勉強していこうと思います。

やりたいこと(優先度順)

Kaggle

Apache Sparkを利用してKaggleのコンペに参加しようかと思います。

R

友人のおすすめ本

グラフィックスのためのRプログラミング

グラフィックスのためのRプログラミング

可視化の文法?が分かるようになるらしいです。

機械学習

この本に書かれている内容は自分で実装できるようにしておきたいです

はじめてのパターン認識

はじめてのパターン認識

決定木のあとはboostingとバギングを実装する予定です。

資格

6月に受ける予定の資格試験の勉強

  • 統計検定準1級
  • TOEIC 900