Algoritmo do vizinho mais próximo para predição de doenças

Torres, Daniel Pires

PRODUÇÃO ACADÊMICA Repositório Acadêmico da Graduação (RAG) TCC Engenharia de Computação

Use este identificador para citar ou linkar para este item: https://repositorio.pucgoias.edu.br/jspui/handle/123456789/8520

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Torres, Daniel Pires	pt_BR
dc.date.accessioned	2024-12-17T11:43:33Z	-
dc.date.available	2024-12-17T11:43:33Z	-
dc.date.issued	2024-12-10	-
dc.identifier.uri	https://repositorio.pucgoias.edu.br/jspui/handle/123456789/8520	-
dc.description.abstract	The general objective of this study was to evaluate the efficiency of the K-Nearest Neighbor (KNN) algorithm for disease prediction, conducting tests for early diabetes detection using an approach that combines a literature review and experimental research. During the study, it was observed that the KNN model, applied to a dataset composed of categorical and numerical variables obtained from patients at the Sylhet Diabetes Hospital in Bangladesh, achieved a performance accuracy of up to 72.4%. This result was based on scenarios where preprocessing included variable selection aimed at improving accuracy, such as the patient's age. The preprocessing stages involved data normalization, handling missing values, and class balancing, which were crucial for achieving better outcomes. Additionally, the appropriate choice of the "K" hyperparameter was critical for balancing model accuracy and stability, with different values tested to identify the most suitable one for the dataset used. In this study, a K value of 3 yielded the best results. Metrics such as accuracy, confusion matrix, and precision were used to evaluate the model's effectiveness. The study concluded that the KNN model is an efficient approach for disease prediction, provided the data is properly preprocessed and the K parameter is carefully selected. Despite its simplicity and versatility, KNN faces limitations, such as sensitivity to data dimensionality and class imbalance. Techniques like normalization and feature selection help mitigate these issues, but distance calculation in large datasets remains a challenge in complex contexts, highlighting the need for careful evaluation of its application in clinical problems.	pt_BR
dc.description.sponsorship	Não recebi financiamento	pt_BR
dc.language	por	pt_BR
dc.publisher	Pontifícia Universidade Católica de Goiás	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Regressão linear	pt_BR
dc.subject	Prediçao de doenças	pt_BR
dc.title	Algoritmo do vizinho mais próximo para predição de doenças	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Silva, Solange da	pt_BR
dc.contributor.advisor1ID	https://orcid.org/0000-0002-9806-2044	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4312855865010981	pt_BR
dc.contributor.referee1	Coelho, Clarimar José	pt_BR
dc.contributor.referee1ID	https://orcid.org/0000-0002-5163-2986	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/1350166605717268	pt_BR
dc.contributor.referee2	Amaral, Nilson Cardoso	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6824122529171550	pt_BR
dc.description.resumo	O objetivo geral deste trabalho foi avaliar a eficiência do modelo do Algoritmo do Vizinho Mais Próximo ou K-Nearest Neighbor (KNN) para a predição de doenças, realizando testes do modelo para detecção precoce de diabetes, utilizando uma abordagem que combina revisão bibliográfica e pesquisa experimental. Durante o estudo, observou-se que o modelo KNN, aplicado a uma base de dados composta por variáveis categóricas e numéricas obtidas de pacientes do Sylhet Diabetes Hospital em Bangladesh, apresentou em seus resultados um desempenho com acurácia de até 72,4%, considerando o cenário onde houve um pré-processamento com escolhas de variáveis que desenvolvam resultados mais precisos, como a idade do paciente. As etapas de pré-processamento incluíram a normalização dos dados, tratamento de valores ausentes e balanceamento das classes, fatores cruciais para a obtenção de melhores resultados. Além disso, a escolha adequada do hiperparâmetro “K” revelou- se determinante para o equilíbrio entre precisão e estabilidade do modelo, sendo testada com diferentes valores para identificar o mais apropriado para o conjunto de dados utilizado, no caso da aplicação deste trabalho o valor de igual 3 apresentou os melhores resultados. Para avaliar a eficácia do modelo foram utilizadas métricas como acurácia, matriz de confusão e precisão. O estudo permitiu concluir que o modelo KNN é uma abordagem eficiente para a predição de doenças, desde que os dados sejam pré-processados adequadamente e o parâmetro K seja escolhido com critério. Apesar de sua simplicidade e versatilidade, o KNN enfrenta limitações, como sensibilidade à dimensionalidade dos dados e ao desbalanceamento de classes. Técnicas como normalização e seleção de características ajudam a mitigar esses problemas, mas o cálculo de distâncias em grandes volumes de dados ainda representa um desafio em contextos complexos, ressaltando a necessidade de avaliar cuidadosamente sua aplicação em problemas clínicos.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Escola Politécnica	pt_BR
dc.publisher.initials	PUC Goiás	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA	pt_BR
dc.degree.graduation	Engenharia de Computação	pt_BR
dc.degree.level	Graduação	pt_BR
Aparece nas coleções:	TCC Engenharia de Computação

Arquivos associados a este item:

Arquivo	Tamanho	Formato
TCC 2 - Daniel Pires Assinado.pdf	1,06 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

Ferramentas do administrador