摘要:挖掘微博文本中的信息對(duì)自動(dòng)問(wèn)答、輿情分析等應(yīng)用研究具有重要意義。文本數(shù)據(jù)的分類(lèi)研究是文本數(shù)據(jù)挖掘的基礎(chǔ)。本文提出將Word2vec和LDA(Latent Dirichlet Allocation)的文本表示同時(shí)輸入卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行高層語(yǔ)義特征抽象和分類(lèi)學(xué)習(xí),使得輸入的詞向量既能表現(xiàn)詞語(yǔ)之間的語(yǔ)義信息又能體現(xiàn)文本的主題思想。首先用Word2vec和LDA模型分別在語(yǔ)料庫(kù)中學(xué)習(xí)產(chǎn)生詞向量,然后詞向量分別級(jí)聯(lián)得到各自的文本矩陣表示,最后將文本矩陣作為2個(gè)通道同時(shí)輸入到卷積神經(jīng)網(wǎng)絡(luò)做分類(lèi)訓(xùn)練,并通過(guò)微博數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社。
計(jì)算機(jī)與現(xiàn)代化雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:算法設(shè)計(jì)與分析、數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘、軟件工程、操作系統(tǒng)、人工智能、圖像處理、計(jì)算機(jī)仿真、計(jì)算機(jī)控制、網(wǎng)絡(luò)與通信、信息安全、電子商務(wù)、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)輔助教學(xué)、信息系統(tǒng)與ERP、中文信息技術(shù)、多媒體技術(shù)、農(nóng)村信息化技術(shù)、應(yīng)用與開(kāi)發(fā)等等。于1985年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。