住宅価格予測 - ハーバード修了証

Regression
Ensemble Learning
R
Harvard
ハーバードデータサイエンス修了証の最終プロジェクト - 回帰モデルの比較

背景と課題

課題:特性からアイオワ州の住宅販売価格を予測する。

このプロジェクトはハーバードデータサイエンス修了証(HarvardX)の最終評価です。多くの回帰アプローチを比較できる定番のKaggleチャレンジです。

データセット

Ames Housingデータセット

  • アイオワ州(米国)の約1,500軒
  • 79の特徴量
  • ターゲット:SalePrice(販売価格 $)

主要な変数

カテゴリ 変数
面積 GrLivArea、TotalBsmtSF、GarageArea
品質 OverallQual、OverallCond、ExterQual
場所 Neighborhood、MSZoning
築年数 YearBuilt、YearRemodAdd
設備 FullBath、BedroomAbvGr、Fireplaces

方法論

テストされたモデル

  • 線形回帰(ベースライン)
  • ランダムフォレスト
  • XGBoost
  • GAM(一般化加法モデル)
  • ニューラルネットワーク
  • アンサンブル(最良モデルの組み合わせ)

結果

モデル比較

モデル RMSE (CV) ランク
線形回帰 34,521 0.82 6
ランダムフォレスト 28,934 0.87 3
XGBoost 27,156 0.89 2
GAM 29,845 0.86 4
ニューラルネットワーク 31,234 0.84 5
アンサンブル 26,012 0.90 1

最も重要な変数

XGBoostとランダムフォレスト分析より:

  1. OverallQual:全体的な住宅品質
  2. GrLivArea:地上居住面積
  3. TotalBsmtSF:地下室面積
  4. GarageCars:ガレージ容量
  5. YearBuilt:建築年
  6. Neighborhood:エリア
  7. TotalBath:バスルーム数

テクノロジー

コンポーネント テクノロジー
言語 R
データラングリング tidyverse (dplyr、tidyr)
MLフレームワーク caret
モデル lm、randomForest、xgboost、mgcv (GAM)、nnet
可視化 ggplot2
ドキュメント RMarkdown

学び

この修了証プロジェクトで以下が可能になりました:

  1. 完全なMLワークフローをマスター:EDAからKaggle提出まで
  2. 厳密にモデルを比較:交差検証、複数のメトリクス
  3. 特徴量エンジニアリングの重要性を理解:新しい変数がパフォーマンスを大幅に向上
  4. アンサンブルを発見:モデルの組み合わせが個別モデルを上回ることが多い
  5. Rを深く練習:tidyverse、caret、xgboost、mgcv

修了証

このプロジェクトはHarvardXのProfessional Certificate in Data Scienceの一部で、以下をカバー:

  • R基礎、可視化、確率
  • 推論とモデリング
  • 生産性ツール、データラングリング
  • 線形回帰、機械学習
  • キャップストーン(このプロジェクト)

← ポートフォリオMLに戻る