摘要:特征詞提取算法大多以選取單個(gè)關(guān)鍵詞為主,存在詞與詞關(guān)聯(lián)度缺失,文本主題表達(dá)不準(zhǔn)確的問(wèn)題,為此提出一種基于詞共現(xiàn)的文本分類算法.通過(guò)計(jì)算詞間共現(xiàn)率,利用TextRank算法構(gòu)建共現(xiàn)圖得到共現(xiàn)詞組,建立文本向量表示模型,并利用SVM算法實(shí)現(xiàn)文本分類.實(shí)驗(yàn)證明,共現(xiàn)詞作為文本特征項(xiàng)相對(duì)于傳統(tǒng)單個(gè)特征詞有更好的分類效果.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社。
河北省科學(xué)院學(xué)報(bào)雜志, 雙月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:學(xué)術(shù)論文、研究簡(jiǎn)報(bào)、綜述等。于1984年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。