July 29, 2025

Heart Disease ML: Predição de Doença Cardíaca

Visualização de dados e predição de doença cardíaca.

Heart Disease ML é um projeto de classificação que utiliza técnicas de Aprendizado de Máquina (Machine Learning) para prever a presença de doença cardíaca em pacientes, com base em características clínicas e exames.

O modelo vencedor, KNeighbors, alcançou uma acurácia de 82,07% no conjunto de testes.


🎯 Objetivo e Modelo Principal

Esta seção demonstra a aplicação de Machine Learning na predição de riscos na saúde.

Objetivo

O objetivo principal é prever a presença de doença cardíaca (target) com a maior precisão possível, avaliando o desempenho de diversos algoritmos de classificação.

Modelo Vencedor

Após a comparação, o KNeighbors foi selecionado como o modelo de melhor desempenho no conjunto de testes:

MétricaValor
Acurácia Teste82.07%
Acurácia Treino90.28%

💡 Tecnologias e Repositório

Aqui estão as ferramentas e bibliotecas utilizadas neste projeto e o link para o código completo.

⚙️ Tecnologias Principais

  • Linguagem: Python
  • Machine Learning: scikit-learn
  • Processamento de Dados: Pandas & NumPy
  • Visualização: Matplotlib & Seaborn

🌐 Repositório do Código

O código completo do projeto está disponível em:

👉 View Project on GitHub


⚙️ Funcionalidades e Pipeline

O projeto implementa um pipeline completo de Machine Learning, focado na classificação de risco.

Etapas do Pipeline

  • Pré-processamento e Exploração de Dados com Pandas e NumPy.
  • Visualização de Dados para insights e correlações.
  • Treinamento de Múltiplos Modelos de classificação (KNeighbors, Logistic Regression, Random Forest, etc.).
  • Avaliação de Desempenho via Acurácia.
  • Seleção do modelo de maior acurácia no teste.

📊 Resultados Detalhados dos Modelos

A tabela abaixo mostra o desempenho comparativo dos modelos avaliados.

Modelo                  Acurácia Treino (%)Acurácia Teste (%)
KNeighbors90.2882.07
Logistic Regression      91.67              81.38              
Random Forest Classifier100.00              79.31              
Ada Boost                100.00              76.55              
Decision Tree            100.00              67.59              

📖 Variáveis do Dataset

As variáveis (features) utilizadas para a predição da variável alvo.

VariávelDescrição
ageIdade da pessoa, em anos
sexSexo da pessoa (1 = masculino, 0 = feminino)
cpTipo de dor no peito (1 = angina típica a 4 = assintomático)
trestbpsPressão arterial de repouso (mm Hg)
cholMedida de colesterol (mg/dl)
fbsGlicemia de jejum (> 120 mg/dl: 1 = verdadeiro, 0 = falso)
restecgEletrocardiograma em repouso (0 a 2)
thalachFrequência cardíaca máxima atingida
exangAngina induzida por exercício (1 = sim, 0 = não)
oldpeakDepressão do segmento ST induzida por exercício
slopeInclinação do segmento ST (1 = ascendente a 3 = descendente)
caNúmero de vasos principais (0–3)
thalTalassemia (3 = normal, 6 = defeito fixo, 7 = defeito reversível)
targetVariável alvo: Presença de doença cardíaca (0 = Não, 1 = Sim)
Compartilhar