私がpythonを用いて、機械学習やディープラーニングを勉強するためにあたり、大きな問題だったのが、練習として用いられるデータセットを探すことでした。
私が準備できる資料としては、放射線診療時の画像(X線写真、CT画像、MRI画像)やRIS(放射線情報システム)などになります。しかし、これらの情報を入手するには、実験計画書や倫理委員会など、いくつもの大きなハードルを超える必要が出てきます。
今回ご紹介するKaggleは練習として使えるデータセットがあります。さらに、プログラミングの教育ツールや世界中のデータサイエンテストと議論を深めることができる場になっています
今まで散々、お世話になって行きているKaggleですが、これから機械学習を勉強される方に向けた「Kaggleとは?Kaggle入門編」としてまとめていきたいと思います。
目次
Kaggleって?
Kaggleは「カグル」と読みます。Kaggleに参加している方を「カグラー(Kaggler)」とも呼びます。
Kaggleですが、本サイトへ行くと一番上に書かれていますが「The Home of Data Science & Machine Learning」(データサイエンスと機械学習の家)と題されている通り、世界中の機械学習・データサイエンスに携わっている約40万人の方が集まるコミニティーです。
Kaggleでは、企業や政府などの組織とデータ分析のプロであるデータサイエンティスト/機械学習エンジニアを繋げるプラットフォームとなっています。単純なマッチングではなく、Kaggleの最大の目玉とも言えるコンペがKaggleの特徴の一つです。
コンペは、企業や政府がコンペ形式(競争形式)で課題を提示し、賞金と引き換えに最も制度の高い分析モデルを買い取るという、最近でいう一種のクラウドファンディングに近いような仕組みとなります。

充実した学習コース
Kaggleは、コンペ以外にも機械学習やディープラーニングを行うために学習ツールが充実しています。
これらのツールは基本的に無料で行うことができます。また、自身で手を動かして学習する方法になっているため、学習効率も良いものになっています。

Kaggle 初心者はひたすらNotebooksをやるべし
色々なコンペや学習コースを見て回ったけど・・まだ私にはレベルが高すぎて何をして良いかわからない・・!機械学習を触り始めの初心者の方であれば、Kaggleを使い出すと、そういう状況になることもあるかと思います。(私も最初はそうでした)
そんな初心者の方も安心してください!KaggleのNotebooksを使用してみてください。Kernelsでは、先輩データサイエンティストさん達が構築したモデルやデータセット処理のコードが公開されています。各コンペまたはオープンデータセットに対してNotebooksは用意されています。また言語でのフィルタリングも可能です
下記のキャプチャですが、タイタニック号のに乗船していた人の生存率のnotebboksとなります。
このコードを自分の環境で書きながら、1ライン1ライン理解をしていくと良い勉強になります。なぜ、このような処理をしたのか?なぜこの項目を特徴量として使ったのか?などなどコードを真似しながら自分の中で噛み砕いていくことで、最先端のデータサイエンティストの考え方が身につけられます。

まとめ
全て英語のサービスというハードルはあるものの、データとコードは世界共通です。これから機械学習を学ぶ方、すでに学び始めている方はKaggleへ参加をすることで、機械学習/データサイエンスのスキルアップが出来ます。
コメント