約翰內斯堡大學最近宣布了一項發表的研究醫學信息學解鎖檢查如何改善機器學習(ML)算法以供醫療保健使用。算法可以更好地識別健康的個體,因為他們經常在包含比病人更健康的“不平衡”數據集中接受培訓。由於描述了病患者的數據點更少,因此從這些數據集中學習的算法在診斷病人時可能不準確。
因此,該研究的研究人員是Ibomoiye Domor Mienye和Yanxia Sun博士,確定了對算法模型的建築成本敏感性如何影響其診斷性能(即,算法對假陰性的罰款比對假陽性的罰款更大)。理由是告訴一個病人,他們健康的危險比反過來更大。
邏輯回歸,決策樹,XGBOOST和隨機森林模型接受了用於糖尿病,乳腺癌,宮頸癌和從加利福尼亞大學爾灣分校機器學習存儲庫中獲得的公共學習數據集培訓。這些是監督的二進製分類算法,從“是/否”數據集中學習。每個數據集都包含每個患者的診斷和相關診斷數據。
在幾乎每種情況下,增加了懲罰性的表現,因此該算法將更少的健康人確定為病態(精度)和病人是健康的人(召回)。例如,在慢性腎髒疾病中,成本敏感性將隨機森林精度提高到0.990,並分別從0.972和0.946召回了完美的1.000。對於宮頸癌,隨機森林和XGBOOST的成本敏感性提高了精度,並從高分中召回了1.000。因此,增加懲罰有效地補償了數據集中的不平衡。