Assegie dkk. (2022) mengeksplorasi dataset gambar penyakit jantung menggunakan model machine learning untuk memprediksi penyakit jantung. Mereka menggunakan recursive feature elimination with cross-validation (RFECV) untuk menganalisis signifikansi fitur penyakit jantung pada output yang dihasilkan oleh model. Dataset untuk percobaan ini diperoleh dari dataset machine learning Universitas California Irvine (UCI). Empat algoritma machine learning digunakan untuk percobaan ini diantaranya: support vector machine (SVM), logistic regression (LR), decision tree (DT), dan random forest (RF). Hasil penelitian menunjukkan bahwa kualitas fitur secara signifikan memengaruhi kinerja model, dan algoritma random forest (RF) mengungguli algoritma lainnya, mencapai akurasi prediksi 99,7%. Keuntungan menggunakan RF untuk prediksi penyakit jantung antara lain:
- Ensemble learning: RF adalah algoritma pembelajaran ensemble yang menggabungkan beberapa decision tree untuk meningkatkan akurasi dan ketahanan model. Hal ini memungkinkan RF untuk menangani hubungan non-linear yang kompleks antara fitur dan variabel target, sehingga cocok untuk memprediksi penyakit jantung.
- Menangani noise dan outliers: RF kuat terhadap noise dan outlier dalam data, yang dapat terjadi pada real dataset. Hal ini membuat RF menjadi pilihan yang dapat diandalkan untuk prediksi penyakit jantung, karena dapat menangani variabilitas dan ketidakpastian dalam data.
- Feature importance: RF memberikan ukuran kepentingan fitur, yang dapat membantu mengidentifikasi fitur yang paling relevan untuk memprediksi penyakit jantung. Hal ini dapat berguna untuk memahami penyebab penyakit jantung dan untuk memandu penelitian lebih lanjut.
- Menangani missing values: RF dapat menangani nilai yang hilang dalam data tanpa perlu melakukan imputasi. Hal ini dapat menghemat waktu dan sumber daya komputasi, serta mengurangi risiko masuknya bias ke dalam model.
- Akurasi prediksi yang tinggi: seperti yang telah disebutkan sebelumnya, RF dapat mencapai akurasi prediksi 99,7%. Hasil tersebut merupakan tingkat akurasi yang tinggi untuk prediksi penyakit jantung. Hal ini menunjukkan keefektifan RF dalam aplikasi ini.
An empirical study on machine learning algorithms for heart disease prediction
Tsehay Admassu Assegie, Prasanna Kumar Rangarajan, Napa Komal Kumar, Dhamodaran Vigneswari
In recent years, machine learning is attaining higher precision and accuracy in clinical heart disease dataset classification. However, literature shows that the quality of heart disease feature used for the training model has a significant impact on the outcome of the predictive model. Thus, this study focuses on exploring the impact of the quality of heart disease features on the performance of the machine learning model on heart disease prediction by employing recursive feature elimination with cross-validation (RFECV). Furthermore, the study explores heart disease features with a significant effect on model output. The dataset for experimentation is obtained from the University of California Irvine (UCI) machine learning dataset. The experiment is implemented using a support vector machine (SVM), logistic regression (LR), decision tree (DT), and random forest (RF) are employed. The performance of the SVM, LR, DT, and RF models. The result appears to prove that the quality of the feature significantly affects the performance of the model. Overall, the experiment proves that RF outperforms as compared to other algorithms. In conclusion, the predictive accuracy of 99.7% is achieved with RF.
Redaksi: I. Busthomi