摘要:當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)已在圖像分類(lèi)、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)領(lǐng)域被廣泛應(yīng)用。然而,在前向推斷階段,許多實(shí)際應(yīng)用往往具有低延時(shí)和嚴(yán)格的功耗限制。針對(duì)該問(wèn)題,采用參數(shù)重排序、多通道數(shù)據(jù)傳輸?shù)葍?yōu)化策略,設(shè)計(jì)并實(shí)現(xiàn)了一種基于FPGA的SIMD卷積神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)。以YOLOv2目標(biāo)檢測(cè)算法為例,介紹了將卷積神經(jīng)網(wǎng)絡(luò)模型映射到FPGA上的完整流程;對(duì)加速器的性能和資源耗費(fèi)進(jìn)行深入分析和建模,將實(shí)際傳輸延時(shí)考慮在內(nèi),縮小了加速器理論時(shí)延與實(shí)際時(shí)延的誤差;改進(jìn)了加速器架構(gòu)中的輸入和輸出模塊,有效提高了總線帶寬的實(shí)際利用率。實(shí)驗(yàn)結(jié)果表明,在Zedboard上獲得了30.15 GOP/s的性能,與Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;與雙核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社。
計(jì)算機(jī)科學(xué)與探索雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述探索、簡(jiǎn)訊、學(xué)術(shù)研究、專(zhuān)題報(bào)導(dǎo)、專(zhuān)題報(bào)導(dǎo)。等。于2007年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。