Algoritmo do vizinho mais próximo para predição de doenças

Torres, Daniel Pires

PRODUÇÃO ACADÊMICA Repositório Acadêmico da Graduação (RAG) TCC Engenharia de Computação

Use este identificador para citar ou linkar para este item: https://repositorio.pucgoias.edu.br/jspui/handle/123456789/8520

Tipo:	Trabalho de Conclusão de Curso
Título:	Algoritmo do vizinho mais próximo para predição de doenças
Autor(es):	Torres, Daniel Pires
Primeiro Orientador:	Silva, Solange da
metadata.dc.contributor.referee1:	Coelho, Clarimar José
metadata.dc.contributor.referee2:	Amaral, Nilson Cardoso
Resumo:	O objetivo geral deste trabalho foi avaliar a eficiência do modelo do Algoritmo do Vizinho Mais Próximo ou K-Nearest Neighbor (KNN) para a predição de doenças, realizando testes do modelo para detecção precoce de diabetes, utilizando uma abordagem que combina revisão bibliográfica e pesquisa experimental. Durante o estudo, observou-se que o modelo KNN, aplicado a uma base de dados composta por variáveis categóricas e numéricas obtidas de pacientes do Sylhet Diabetes Hospital em Bangladesh, apresentou em seus resultados um desempenho com acurácia de até 72,4%, considerando o cenário onde houve um pré-processamento com escolhas de variáveis que desenvolvam resultados mais precisos, como a idade do paciente. As etapas de pré-processamento incluíram a normalização dos dados, tratamento de valores ausentes e balanceamento das classes, fatores cruciais para a obtenção de melhores resultados. Além disso, a escolha adequada do hiperparâmetro “K” revelou- se determinante para o equilíbrio entre precisão e estabilidade do modelo, sendo testada com diferentes valores para identificar o mais apropriado para o conjunto de dados utilizado, no caso da aplicação deste trabalho o valor de igual 3 apresentou os melhores resultados. Para avaliar a eficácia do modelo foram utilizadas métricas como acurácia, matriz de confusão e precisão. O estudo permitiu concluir que o modelo KNN é uma abordagem eficiente para a predição de doenças, desde que os dados sejam pré-processados adequadamente e o parâmetro K seja escolhido com critério. Apesar de sua simplicidade e versatilidade, o KNN enfrenta limitações, como sensibilidade à dimensionalidade dos dados e ao desbalanceamento de classes. Técnicas como normalização e seleção de características ajudam a mitigar esses problemas, mas o cálculo de distâncias em grandes volumes de dados ainda representa um desafio em contextos complexos, ressaltando a necessidade de avaliar cuidadosamente sua aplicação em problemas clínicos.
Abstract:	The general objective of this study was to evaluate the efficiency of the K-Nearest Neighbor (KNN) algorithm for disease prediction, conducting tests for early diabetes detection using an approach that combines a literature review and experimental research. During the study, it was observed that the KNN model, applied to a dataset composed of categorical and numerical variables obtained from patients at the Sylhet Diabetes Hospital in Bangladesh, achieved a performance accuracy of up to 72.4%. This result was based on scenarios where preprocessing included variable selection aimed at improving accuracy, such as the patient's age. The preprocessing stages involved data normalization, handling missing values, and class balancing, which were crucial for achieving better outcomes. Additionally, the appropriate choice of the "K" hyperparameter was critical for balancing model accuracy and stability, with different values tested to identify the most suitable one for the dataset used. In this study, a K value of 3 yielded the best results. Metrics such as accuracy, confusion matrix, and precision were used to evaluate the model's effectiveness. The study concluded that the KNN model is an efficient approach for disease prediction, provided the data is properly preprocessed and the K parameter is carefully selected. Despite its simplicity and versatility, KNN faces limitations, such as sensitivity to data dimensionality and class imbalance. Techniques like normalization and feature selection help mitigate these issues, but distance calculation in large datasets remains a challenge in complex contexts, highlighting the need for careful evaluation of its application in clinical problems.
Palavras-chave:	Inteligência artificial Machine learning Regressão linear Prediçao de doenças
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA
Idioma:	por
País:	Brasil
Editor:	Pontifícia Universidade Católica de Goiás
Sigla da Instituição:	PUC Goiás
metadata.dc.publisher.department:	Escola Politécnica
Tipo de Acesso:	Acesso Aberto
URI:	https://repositorio.pucgoias.edu.br/jspui/handle/123456789/8520
Data do documento:	10-Dez-2024
Aparece nas coleções:	TCC Engenharia de Computação

Arquivos associados a este item:

Arquivo	Tamanho	Formato
TCC 2 - Daniel Pires Assinado.pdf	1,06 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Ferramentas do administrador