July 30, 2025

California Housing ML: Predição de Preços de Imóveis

Visualização de dados e predição de preços de casas na Califórnia.

California Housing ML é um projeto de regressão que utiliza técnicas de Aprendizado de Máquina (Machine Learning) para prever o valor mediano das casas em distritos da Califórnia, com base em dados do censo de 1990.

O projeto explora e compara o desempenho de múltiplos modelos de regressão para identificar a melhor solução preditiva.


🎯 Objetivo e Modelo Principal

Esta seção demonstra a aplicação de Machine Learning na predição de preços imobiliários.

Objetivo

O objetivo principal é prever o valor mediano das casas (medianHouseValue) com a maior precisão possível, comparando diferentes algoritmos de regressão.

Modelo Vencedor

Após a comparação, o Random Forest Regressor foi selecionado como o modelo de melhor desempenho:

MétricaValor
R² Médio0.8068
RMSE Médio$50,726.74

💡 Tecnologias e Repositório

Aqui estão as ferramentas e bibliotecas utilizadas neste projeto de regressão e o link para o código completo.

⚙️ Tecnologias Principais

  • Linguagem: Python
  • Machine Learning: scikit-learn
  • Processamento de Dados: Pandas & NumPy
  • Visualização: Matplotlib & Seaborn

🌐 Repositório do Código

O código completo do projeto está disponível em:

👉 View Project on GitHub


⚙️ Funcionalidades e Pipeline

O projeto implementa um pipeline de Machine Learning robusto, desde a exploração de dados até a comparação final dos modelos.

Etapas do Pipeline

  • Pré-processamento e Exploração de Dados com Pandas e NumPy.
  • Visualização de Dados para insights geográficos e de correlação.
  • Treinamento de Múltiplos Modelos de regressão.
  • Avaliação de Desempenho via RMSE e .
  • Seleção e Otimização do modelo mais preciso.

📊 Resultados Detalhados dos Modelos

A tabela abaixo mostra o desempenho comparativo dos modelos avaliados.

Modelo                      RMSE médio    RMSE std  R2 médio    R2 std      
Random Forest Regressor50,726.74632.690.8068190.005218
Ridge                      68,844.91    455.56    0.644220    0.005797    
Linear Regression          68,847.69    460.81    0.644191    0.005831    
Bayesian Ridge              68,850.85    453.96    0.644159    0.005754    
Elastic Net                76,780.62    470.39    0.557521    0.002349    
SVR                        118,565.72    977.10    -0.055104    0.006184    

📖 Variáveis do Dataset

O dataset utiliza dados do censo de 1990 com as seguintes variáveis (features) para a predição do valor alvo:

VariávelTraduçãoDescrição
longitudeLongitudeMedida de quão a oeste está uma casa.
latitudeLatitudeMedida de quão ao norte está uma casa.
housingMedianAgeIdade Mediana das CasasIdade mediana das casas em um quarteirão.
totalRoomsTotal de CômodosNúmero total de cômodos em um quarteirão.
totalBedroomsTotal de QuartosNúmero total de quartos em um quarteirão.
populationPopulaçãoNúmero total de pessoas residentes em um quarteirão.
householdsDomicíliosNúmero total de domicílios em um quarteirão.
medianIncomeRenda MedianaRenda mediana dos domicílios.
medianHouseValueValor Mediano das CasasVariável alvo (target) a ser prevista (em dólares).
oceanProximityProximidade do OceanoLocalização da casa em relação ao oceano/mar.
Compartilhar