這樣也行?(全連接層實(shí)現(xiàn)要加激活函數(shù)嗎)全連接層實(shí)現(xiàn)回歸,ECCV 2022 | 僅用全連接層處理視頻數(shù)據(jù),美圖&NUS實(shí)現(xiàn)高效視頻時(shí)空建模,明宣宗孝恭孫皇后,
目錄:
1.全連接層是什么意思
2.全連接層的作用
3.全連接層 linear
4.全連接層的計(jì)算
5.全連接層可以不加激活函數(shù)
6.全連接層的公式
7.全連接層如何進(jìn)行分類
8.全連接層的激活函數(shù)
9.全連接層的參數(shù)
10.全連接層個(gè)數(shù)
1.全連接層是什么意思
機(jī)器之心專欄機(jī)器之心編輯部美圖影像研究院(MT Lab)與新加坡國立大學(xué)提出高效的 MLP(多層感知機(jī)模型)視頻主干網(wǎng)絡(luò),用于解決極具挑戰(zhàn)性的視頻時(shí)空建模問題該方法僅用簡單的全連接層來處理視頻數(shù)據(jù),提高效率的同時(shí)有效學(xué)習(xí)了視頻中細(xì)粒度的特征,進(jìn)而提升了視頻主干網(wǎng)絡(luò)框架的精度。
2.全連接層的作用
此外,將此網(wǎng)絡(luò)適配到圖像域(圖像分類分割),也取得了具有競爭力的結(jié)pourhub果
3.全連接層 linear
打開鳳凰新聞,查看更多高清圖片引言由于 Vision Transformer (ViT)[1] 的開創(chuàng)性工作,基于注意力的架構(gòu)在各種計(jì)算機(jī)視覺任務(wù)中顯示出強(qiáng)大的能力,從圖像域到視頻域都取得了良好的效果然而近期的研究表明,自注意力可能并不重要,因其可以被簡單的多層感知器 (MLP) 取代,目前通過替代注意力框架的方法已經(jīng)在圖像域任務(wù)上開發(fā)了許多類似 MLP 的架構(gòu),且取得了可喜的成果。
4.全連接層的計(jì)算
但在視頻域該應(yīng)用仍屬空白,因此是否有可能設(shè)計(jì)一個(gè)通用的 MLP 視頻域架構(gòu)成為受到關(guān)注的新問題美圖影像研究院(MT Lab)聯(lián)合新加坡國立大學(xué) Show Lab 提出了pourhub一種 MLP 視頻主干網(wǎng)絡(luò),實(shí)現(xiàn)了在視頻分類上的高效視頻時(shí)空建模
5.全連接層可以不加激活函數(shù)
該網(wǎng)絡(luò)模型在空間上提出 MorphFC,在早期層關(guān)注局部細(xì)節(jié),隨著網(wǎng)絡(luò)的加深,逐漸轉(zhuǎn)變?yōu)閷?duì)遠(yuǎn)程信息進(jìn)行建模,從而 克服了當(dāng)前 CNN 和 MLP 模型只能進(jìn)行局部或者全局建模的問題 在時(shí)間上,該網(wǎng)絡(luò)模型引入了時(shí)間路徑來捕獲視頻中的長期時(shí)間信息,將所有相同空間位置幀的像素進(jìn)行連接,并合并為一個(gè)塊。
6.全連接層的公式
同時(shí),每個(gè)塊都會(huì)經(jīng)過全連接層處理得到一個(gè)新的塊基于空間和時(shí)間上的建模,研究者們廣泛探索了建立視頻主干的各種方法,最終按照串聯(lián)的順序依次對(duì)空間和時(shí)間信息進(jìn)行建模,并以高效的時(shí)空表示學(xué)習(xí)框架表示該網(wǎng)pourhub絡(luò)模型 。
7.全連接層如何進(jìn)行分類
首次提出不借助卷積和自注意力機(jī)制,僅用全連接層進(jìn)行高效的視頻時(shí)空建模的方法,對(duì)比之前的視頻 CNN 和 Transformer 架構(gòu),該網(wǎng)絡(luò)模型在提升精度的同時(shí)還降低了計(jì)算量 此外,將此網(wǎng)絡(luò)適配到圖像域(圖像分類分割),也取得了具有競爭力的結(jié)果。
8.全連接層的激活函數(shù)
該論文目前已被國際會(huì)議 ECCV 2022 接收背景介紹由于 MLP 模型尚未在視頻領(lǐng)域進(jìn)行應(yīng)用,研究者們 首先分析了在時(shí)空表示學(xué)習(xí)框架中使用 MLP 所面臨的挑戰(zhàn) 從空間角度上看,當(dāng)前的 MLP 模型缺乏對(duì)語義細(xì)節(jié)的深刻理解。
9.全連接層的參數(shù)
這主要是因?yàn)樗鼈冊(cè)诳臻g中的所有令牌上全局操作 MLPpourhub,同時(shí)忽略了分層學(xué)習(xí)視覺表征(如下圖 1 所示)從時(shí)間角度上看,學(xué)習(xí)視頻中幀的長期依賴關(guān)系目前基于視頻的 Transformers 來實(shí)現(xiàn),但計(jì)算時(shí)間成本巨大。
10.全連接層個(gè)數(shù)
因此,如何有效地利用連接層替換遠(yuǎn)程聚合的自注意力對(duì)節(jié)省計(jì)算時(shí)間至關(guān)重要
圖 1:特征可視化為了應(yīng)對(duì)這些挑戰(zhàn),研究者們提出了一種 高效的 MLP 視頻表示學(xué)習(xí)架構(gòu),即MorpMLP ,它由 MorphFCs 和 MorphFCt 兩個(gè)關(guān)鍵層組成研究者們沿著長和寬的方向逐漸擴(kuò)大了感受野,使得 MorphFC 可以有效地捕捉空間中的核心語義(如下圖 2 所示)。
圖 2:操作概覽這種漸進(jìn)式的模式與現(xiàn)有的 MLP 模型設(shè)計(jì)相比,在pourhub空間建模方面帶來了以下兩個(gè)優(yōu)勢首先,它可以通過從小到大的空間區(qū)域操作全連接層,學(xué)習(xí)分層交互以發(fā)現(xiàn)判別性細(xì)節(jié);其次,這種從小到大的區(qū)域建??梢杂行p少用于空間建模的全連接層的操作計(jì)算量。
此外,MorphFCt 可以自適應(yīng)地捕獲對(duì)幀的時(shí)序遠(yuǎn)程依賴研究者們將所有幀中每個(gè)空間位置的特征連接到一個(gè)時(shí)間塊中,通過這種方式,全連接層可以有效地處理每個(gè)時(shí)間塊,并對(duì)長期時(shí)間依賴進(jìn)行建模最后,通過依次排列 MorphFC 和 MorphFCt 構(gòu)建一個(gè) MorphMLP 塊,并將這些塊堆疊到通用的 MorphMLP 主干網(wǎng)絡(luò)中進(jìn)行視頻建模。
一方面,這種分層方式可以擴(kuò)大 MorphFCs 和 MorphFCt 的協(xié)pourhub作能力,用以學(xué)習(xí)視頻中復(fù)雜的時(shí)空交互;另一方面,這種多尺度和多維度的分解方法在準(zhǔn)確性和效率之間取得了更好的平衡MorphMLP 是 。
首個(gè)為視頻領(lǐng)域構(gòu)建的高效 MLP 架構(gòu),與此前最先進(jìn)的視頻模型相比,該模型顯著減少了計(jì)算量且精度更高 MorphMLP 的時(shí)空建模模型空間建模如上所述,挖掘核心語義對(duì)于視頻識(shí)別至關(guān)重要典型的 CNN 和以前的 MLP-Like 架構(gòu)只關(guān)注局部或全局信息建模,因此它們無法做到這一點(diǎn)。
為了應(yīng)對(duì)這一挑戰(zhàn),研究者們提出了一種新穎的 MorphFC 層,它可以分層擴(kuò)展全連接層的感受野,使其從小區(qū)域到大區(qū)域運(yùn)行,按水平和垂直方向獨(dú)立地處理每一幀以水平方向處理為例(如下圖 3pourhub 中藍(lán)色塊部分),給定某一幀,首先沿水平方向拆分該幀形成塊,并將每個(gè)塊沿通道維度分成多個(gè)組,以降低計(jì)算成本。
接下來,將每個(gè)組展平為一維向量,并應(yīng)用全連接層來進(jìn)行特征轉(zhuǎn)換特征轉(zhuǎn)換完成后,重塑所有組回到該幀原來的維度,垂直方向處理方式相同(如圖 3 中綠色塊部分)除了沿水平和垂直方向拆分,還應(yīng)用了一個(gè)全連接層來單獨(dú)處理每個(gè)空間位置,以保證組與組之間能夠沿著通道維度進(jìn)行通信。
最后,再將水平、垂直和通道特征相加。隨著網(wǎng)絡(luò)的加深,塊長度分層增加,從而使得全連接層能夠從小空間區(qū)域到大空間區(qū)域逐步發(fā)現(xiàn)更多核心語義。
圖 3:空間建模時(shí)間建模除了水平和垂直通路外,研究者們還引入了另一個(gè)時(shí)間通路,旨在使用簡單的全pourhub連接層以低計(jì)算成本捕獲長期時(shí)間信息具體而言,給定輸入視頻后,先沿通道維度分成幾個(gè)組以降低計(jì)算成本,再將每個(gè)空間位置中所有幀的特征連接成一個(gè)塊,接著應(yīng)用全連接層來轉(zhuǎn)換時(shí)間特征,最后將所有塊重塑回原始維度。
通過這種方式,全連接層可以簡單地聚合塊中沿時(shí)間維度的依賴關(guān)系,以對(duì)時(shí)間進(jìn)行建模(如下圖 4 中橙色塊部分)
圖 4:空間建模時(shí)空建模將時(shí)間和空間的全連接層串聯(lián)在一起,以實(shí)現(xiàn)更穩(wěn)定的時(shí)空優(yōu)化收斂并降低計(jì)算復(fù)雜度,最終構(gòu)建完成利用全連接層提取視頻特征的主干網(wǎng)絡(luò),具體如下圖 5 所示在此基礎(chǔ)上,只需簡單地丟棄時(shí)間維度就可以完成到圖像域的適配。
圖 5:網(wǎng)絡(luò)架構(gòu)結(jié)果
表 1:在 k400 數(shù)據(jù)集上的準(zhǔn)確率和計(jì)pourhub算量表現(xiàn)
表 2:在 Something-Something 數(shù)據(jù)集上的準(zhǔn)確率和計(jì)算量表現(xiàn)
表 3:圖像領(lǐng)域適配在 ImageNet 上的準(zhǔn)確率和計(jì)算量表現(xiàn)
表 4:圖像分割表現(xiàn)總結(jié)在本文中,研究者們提出了一種用于視頻表示學(xué)習(xí)的無自注意力、類似 MLP 的主干網(wǎng)絡(luò) MorphMLP該方法能夠逐步發(fā)現(xiàn)核心語義并捕獲長期時(shí)間信息,這也是第一個(gè)在視頻領(lǐng)域應(yīng)用 MLP 架構(gòu)的主干網(wǎng)絡(luò)。
實(shí)驗(yàn)表明,這種無自注意力模型可以與基于自注意力的架構(gòu)一樣強(qiáng)大,甚至優(yōu)于基于自注意力的架構(gòu)