摘要:機(jī)器學(xué)習(xí)中類(lèi)不平衡分布問(wèn)題包含了不同類(lèi)之間數(shù)據(jù)樣本的偏差分布,導(dǎo)致學(xué)習(xí)過(guò)程更偏向于多數(shù)類(lèi)。而高維數(shù)據(jù)的稀疏性使得分類(lèi)的偏差更加明顯,因此對(duì)于高維不平衡數(shù)據(jù),維度災(zāi)難與類(lèi)不平衡分布這兩個(gè)挑戰(zhàn)性問(wèn)題相互疊加在一起,使得解決高維不平衡問(wèn)題變得更為困難。針對(duì)這一問(wèn)題,文中提出結(jié)合隨機(jī)子空間和SMOTE過(guò)采樣技術(shù)的AdaBoost集成方法(AdaBoost ensemble of Random subspace and SMOTE,AdaBoostRS)來(lái)處理高維不平衡數(shù)據(jù)的分類(lèi)。具體地,AdaBoostRS通過(guò)隨機(jī)子空間選取部分特征來(lái)訓(xùn)練每個(gè)分類(lèi)器,以增加分類(lèi)樣本的多樣性和降低高維數(shù)據(jù)的維度,然后通過(guò)SMOTE方法對(duì)降維數(shù)據(jù)的少數(shù)類(lèi)進(jìn)行線性插值,以解決類(lèi)不平衡問(wèn)題?;?個(gè)高維不平衡的標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,以F-measure、G-mean與AUC 3個(gè)性能指標(biāo)來(lái)進(jìn)行評(píng)判,AdaBoostRS優(yōu)于傳統(tǒng)的集成學(xué)習(xí)方法。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社。
計(jì)算機(jī)科學(xué)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:網(wǎng)絡(luò)與通信、信息安全、軟件與數(shù)據(jù)庫(kù)技術(shù)、人工智能、圖形圖像與模式識(shí)別等。于1974年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。