電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>基于AdderNet的深度學(xué)習(xí)推理加速器

基于AdderNet的深度學(xué)習(xí)推理加速器

2513674 2022-10-31 | zip | 0.19 MB | 次下載 | 免費(fèi)

資料介紹

描述

該項(xiàng)目介紹了我們對基于稱為 AdderNet 的新型深度學(xué)習(xí)模型的硬件推理加速器設(shè)計(jì)和優(yōu)化的研究。通過用絕對和 (SAD) 內(nèi)核替換計(jì)算密集型卷積 (CONV) 操作，可以通過具有成本效益的加法器/減法器電路消除大量乘法器，這可以提高計(jì)算吞吐量，因?yàn)橛布拗啤?/font>我們在 FPGA 設(shè)備上展示了基線 ResNet-20 實(shí)現(xiàn) (CNN-ResNet-20) 和兩個 AdderNet 設(shè)計(jì)變體 (ADD-ResNet-20) 之間的比較研究。我們利用自動 HLS（高級綜合）和手動轉(zhuǎn)換將 SAD 操作映射到 Xilinx Zynq MPSoC 的 FPGA DSP 塊 (DSP48E2)。尤其是，當(dāng) DSP48 模塊配置為 SIMD（單指令多數(shù)據(jù)）模式時，我們可以用一個 DSP 模塊和最少的 LUT 邏輯資源支持至少兩個 SAD 操作。在這個研究階段，我們選擇使用一個 DSP 來支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價(jià)，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價(jià)，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價(jià)，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）已廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)領(lǐng)域。例如工業(yè)檢測、自主視覺和機(jī)器人檢測。然而，由于其大量的乘法運(yùn)算和參數(shù)，很難將這些標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)部署到具有效率吞吐量和功耗的嵌入式設(shè)備中。作為一種解決方案，AdderNet 在深度神經(jīng)網(wǎng)絡(luò)，尤其是卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中使用這些大規(guī)模乘法，以獲得更便宜的加法以降低計(jì)算成本。

Function.1 CNN

Function.2 人工神經(jīng)網(wǎng)絡(luò)

作為案例研究，我們選擇 ResNet-20-CIFAR10 作為基線設(shè)計(jì)。ResNet-20-CIFAR10的處理引擎如圖1所示。據(jù)我們所知，CNN 加速器有兩種通用方法：單個 PE 和多個 PE。在這項(xiàng)工作中，我們在應(yīng)用程序中使用了多個 PE 以獲得更好的吞吐量。