摘要:社交網(wǎng)絡(luò)已被廣泛地用于通過(guò)基于互聯(lián)網(wǎng)的文本消息和圖像在公共領(lǐng)域表達(dá)意見(jiàn)。Twitter的情感分析為組織提供了實(shí)時(shí)監(jiān)控與他們相關(guān)的產(chǎn)品和事件的公眾感覺(jué)的能力,成為公眾情緒監(jiān)測(cè)的有效途徑。情感分析的第一步是數(shù)據(jù)的文本預(yù)處理。現(xiàn)有的關(guān)于Twitter情感分析的研究主要集中在新情感特征的提取上,而忽略對(duì)預(yù)處理方法的深入研究。在本文中,我們研究了基于支持向量機(jī)(SVM)、樸素貝葉斯、最大熵和基于人工神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類(lèi)器在Twitter數(shù)據(jù)上的特征提取及分類(lèi)方法。我們還提出了基于Mapreduce的主成分分析(MPCA)與SVM結(jié)合的分類(lèi)算法模型。然后討論了文本預(yù)處理方法對(duì)兩類(lèi)分類(lèi)任務(wù)中情感分類(lèi)性能的影響,總結(jié)了各種預(yù)處理方法在Twitter數(shù)據(jù)集上的特征模型和四種分類(lèi)方法的分類(lèi)性能。實(shí)驗(yàn)結(jié)果表明在經(jīng)過(guò)了參數(shù)調(diào)優(yōu)后,我們提出的分類(lèi)算法模型不僅提高了Twitter情感分類(lèi)的準(zhǔn)確率和F1指標(biāo),而且能解決支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的計(jì)算消耗問(wèn)題,算法模型具有一定的擴(kuò)展性,實(shí)驗(yàn)結(jié)果令人滿(mǎn)意。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社。
中國(guó)傳媒大學(xué)學(xué)報(bào)雜志, 雙月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:會(huì)訊、學(xué)術(shù)理論、技術(shù)應(yīng)用、技術(shù)管理、教學(xué)研究、研究通訊等。于1994年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。