芥川龍之介の『羅生門』で一番出てくる回数の多い単語は何?【形態素解析】
自然言語処理についても手を伸ばしてみようと思い、AI academyさんのサイトで勉強を始めました。 無料でみられるコンテンツでちょろっと勉強したので、アウトプットとして、『羅生門』の形態素解析をやってみたいと思います。…
自然言語処理についても手を伸ばしてみようと思い、AI academyさんのサイトで勉強を始めました。 無料でみられるコンテンツでちょろっと勉強したので、アウトプットとして、『羅生門』の形態素解析をやってみたいと思います。…
今回はXGBoostのパラメータチューニングをGridSearchでやっていこうと思います。 ▼タイタニック振り返り全体の流れ ▼前3回の記事 【Kaggle】タイタニック振り返り#1 RandomFore…
前回で特徴選択まで終了したので、今回はモデルのパラメータチューニングに取り掛かろうと思います。 チューニングするモデルはランダムフォレストです。 ▼タイタニック振り返り全体の流れ ▼前3回の記事 【Kagg…
前回は特徴量を追加するアプローチで、特徴量エンジニアリングを行いました。 今回は、不要な特徴量を削除する、引き算の方向で進めていこうと思います。 ▼タイタニック振り返り全体の流れ ▼前2回の記事 【Kaggle】タイタニ…
タイタニックで機械学習お勉強の振り返り記事第二弾です。 前回はこちら↓ 【Kaggle】タイタニック振り返り#1 RandomForest vs XGBoost vs LightGBM 全体の予定 今回は、…
Kaggleのタイタニックデータを使ったいろいろやったことを ”タイタニック振り返り”シリーズとして整理しておこうと思います。 全6回で、こんな感じで進む予定です↓ 今回は第一弾です。 最低限の前処理 &n…
Kaggleでスコアを上げるために、スタッキングを勉強しようと思い立ちました。 幸い、スタッキングについてはTitanicコンペのカーネルで丁寧に説明されているものがあり、それを解読することにします。 ところが、、、ちょ…
絶賛機械学習お勉強中につき、初心者向けでデータが扱いやすいタイタニックコンペで訓練しています。 今回は決定木とランダムフォレストのお勉強をしたので、Kaggleで実践してみて試行錯誤した経過を記録しようと思います。 おお…
Kaggleのタイタニックのデータを用いて、いろいろなモデルを試して勉強中なのですが、今回はモデルにかける前のデータの前処理についてまとめようと思います。 タイタニックデータは特徴量が少ないので目に優しいです。 &nbs…