住宅価格予測 - ハーバード修了証
Regression
Ensemble Learning
R
Harvard
ハーバードデータサイエンス修了証の最終プロジェクト - 回帰モデルの比較
背景と課題
課題:特性からアイオワ州の住宅販売価格を予測する。
このプロジェクトはハーバードデータサイエンス修了証(HarvardX)の最終評価です。多くの回帰アプローチを比較できる定番のKaggleチャレンジです。
データセット
Ames Housingデータセット:
- アイオワ州(米国)の約1,500軒
- 79の特徴量
- ターゲット:SalePrice(販売価格 $)
主要な変数
| カテゴリ | 変数 |
|---|---|
| 面積 | GrLivArea、TotalBsmtSF、GarageArea |
| 品質 | OverallQual、OverallCond、ExterQual |
| 場所 | Neighborhood、MSZoning |
| 築年数 | YearBuilt、YearRemodAdd |
| 設備 | FullBath、BedroomAbvGr、Fireplaces |
方法論
テストされたモデル
- 線形回帰(ベースライン)
- ランダムフォレスト
- XGBoost
- GAM(一般化加法モデル)
- ニューラルネットワーク
- アンサンブル(最良モデルの組み合わせ)
結果
モデル比較
| モデル | RMSE (CV) | R² | ランク |
|---|---|---|---|
| 線形回帰 | 34,521 | 0.82 | 6 |
| ランダムフォレスト | 28,934 | 0.87 | 3 |
| XGBoost | 27,156 | 0.89 | 2 |
| GAM | 29,845 | 0.86 | 4 |
| ニューラルネットワーク | 31,234 | 0.84 | 5 |
| アンサンブル | 26,012 | 0.90 | 1 |
最も重要な変数
XGBoostとランダムフォレスト分析より:
- OverallQual:全体的な住宅品質
- GrLivArea:地上居住面積
- TotalBsmtSF:地下室面積
- GarageCars:ガレージ容量
- YearBuilt:建築年
- Neighborhood:エリア
- TotalBath:バスルーム数
テクノロジー
| コンポーネント | テクノロジー |
|---|---|
| 言語 | R |
| データラングリング | tidyverse (dplyr、tidyr) |
| MLフレームワーク | caret |
| モデル | lm、randomForest、xgboost、mgcv (GAM)、nnet |
| 可視化 | ggplot2 |
| ドキュメント | RMarkdown |
学び
この修了証プロジェクトで以下が可能になりました:
- 完全なMLワークフローをマスター:EDAからKaggle提出まで
- 厳密にモデルを比較:交差検証、複数のメトリクス
- 特徴量エンジニアリングの重要性を理解:新しい変数がパフォーマンスを大幅に向上
- アンサンブルを発見:モデルの組み合わせが個別モデルを上回ることが多い
- Rを深く練習:tidyverse、caret、xgboost、mgcv
修了証
このプロジェクトはHarvardXのProfessional Certificate in Data Scienceの一部で、以下をカバー:
- R基礎、可視化、確率
- 推論とモデリング
- 生産性ツール、データラングリング
- 線形回帰、機械学習
- キャップストーン(このプロジェクト)