摘要:在機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等領(lǐng)域,高質(zhì)量數(shù)據(jù)集的合成一直以來是一個(gè)非常重要且充滿挑戰(zhàn)性的問題.其中,合成的高質(zhì)量數(shù)據(jù)集可用來改善模型,尤其是深度學(xué)習(xí)模型的訓(xùn)練過程.一個(gè)健壯的模型訓(xùn)練過程需要大量已標(biāo)注的數(shù)據(jù)集,獲取這些數(shù)據(jù)集的一種方法是通過領(lǐng)域?qū)<业氖謩?dòng)標(biāo)注,這種方法不僅代價(jià)大還容易出錯(cuò),因此由模型自動(dòng)合成高質(zhì)量數(shù)據(jù)集的方法更為合理.近年來,由于計(jì)算機(jī)視覺領(lǐng)域的飛速發(fā)展,已經(jīng)有不少致力于圖像數(shù)據(jù)集合成的研究,但是這些模型不能直接應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)表上,并且據(jù)調(diào)研,對(duì)這類數(shù)據(jù)的相關(guān)研究幾乎沒有.因此,提出了一個(gè)針對(duì)結(jié)構(gòu)化數(shù)據(jù)表的生成模型TableGAN,該模型是生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)家族的一種變體,通過對(duì)抗訓(xùn)練的方式提高生成模型的性能.針對(duì)結(jié)構(gòu)化數(shù)據(jù)的特征改變了傳統(tǒng)GAN模型的內(nèi)部結(jié)構(gòu),包括優(yōu)化函數(shù)等,使其能夠生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)用于改善模型的訓(xùn)練過程.通過在真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明了此模型的有效性,即在擴(kuò)大后的數(shù)據(jù)集上訓(xùn)練模型的效果有明顯提升.
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社。
計(jì)算機(jī)研究與發(fā)展雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述、計(jì)算機(jī)技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、人工智能、計(jì)算機(jī)軟件、計(jì)算機(jī)應(yīng)用等。于1958年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。