基于特征融合的實時語義分割方法探討

本文是一篇計算機論文,本文從特征融合角度出發,結合注意力機制、深度可分離卷積、上下文語義信息、多尺度特征圖等提出了兩個不同的實時語義分割方法。
第1章 緒論
1.1 課題背景及研究的目的和意義
圖像語義分割是機器視覺方向的一項基礎性技術,通過分割后的圖像可以推斷出圖像中的對象、對象間的關系以及對象所處環境等關鍵信息。語義分割任務目標在于把圖像中的每個像素分類,分類后像素點將圖像分割成不同的且互相之間不連通的區域,每一類像素點代表一類物體。語義分割應用在生產生活中的方方面面,如遙感圖像的分割、醫學影像分割、虛擬現實、人機交互等。在傳統圖像處理先設計特征提取器對圖像的特征進行提取,再通過機器學習算法對特征計算并分類,這種算法不是端到端的算法,針對不同的圖像場景要設計不同的算法操作復雜且不易推廣。與傳統圖像處理方法不同,卷積神經網絡可以從大量的原始圖像中學到相應的特征,通過端到端的方式對輸入的圖像進行處理,有效簡化了特征提取過程。
圖像數據的日益增多和計算機計算能力的增強,為基于卷積神經網絡的深度學習發展提供了條件。隨著卷積神經網絡發展,圖像語義分割已應用在工業自動化、智能質檢、醫學檢測等領域。例如,在質檢領域,產品生產時不可避免地會有一些缺陷,人工質檢費時費力還不一定能取得較好的效果,基于傳統方法的質檢研發周期長,后期調試比較麻煩,基于卷積神經網絡的質檢研發周期短、結果可靠,真正實現了降本增效。在醫學影像領域,可以通過對醫學影像進行分割,其結果可以為臨床醫生篩查和預診斷患者病情提供有力的判斷依據,這種方法不僅能夠降低醫生的工作強度,還可以提升醫生診斷和評估效率。
圖像語義分割可以應用在生產生活當中,但是在一些對實時性有要求的場景中,分割方法的推理速度還需要縮短。準確性較高的分割方法中通常伴隨著大量的計算和參數,由此也導致了語義分割推理速度慢。隨著智能手機等輕便的圖像采集設備的推廣,圖像信息更容易采集且數量迅速增長,此時如何快速處理圖像成為了主要問題。實時語義分割在自動駕駛、虛擬現實、現代農業等領域具有現實意義。通過實時語義分割可以對自動駕駛場景中的行人、汽車、車道線、紅綠燈等物體的識別都需要以語義分割為基礎,在虛擬現實場景中通過語義分割對場景分割為場景理解和程序判斷奠定基礎。
....................................
1.2 國內外研究現狀
語義分割是由基于傳統方法的圖像分割發展而來的,之后卷積神經網絡以其獨特的優勢,成為了語義分割的主流方法,但在一定程度上會導致方法計算更加復雜,耗費時間更長。
1.2.1 基于傳統的圖像分割方法
基于傳統的圖像分割方法以圖像本身的相關屬性作為評判標準對圖像進行預處理,再結合機器學習中的最近鄰算法等對分割結果進行處理。主要方法有以下三類:
第一,基于閾值的分割方法。其特點是效果直觀、易于理解且結果可靠。其基本原理是不同的物體對光的反射程度不相同,通過設定多個閾值將對圖像的像素分類,具體操作方法是根據設定的多個閾值,把處理后的灰度圖像劃分為不同的區域。其主要應用于目標對象和所處環境之間灰度值差別較大的情況,它可以降低操作復雜度,壓縮閾值之間的數據,減少圖像的數據量。這是一種基礎的且利用率較高的分割方法。
第二,基于區域的分割方法。該方法是通過對圖像的顏色、紋理等信息來分析判斷不同的區域,并可分為區域生長、區域合并和區域分裂合并三種基本提取方式。區域生長以隨機的單個像素作為種子像素,之后檢索周圍的未被標記的像素點將具有相似特性的像素點合并到一起形成一個區域直到區域停止擴張,之后再隨機選取種子像素重復上述步驟。區域合并與上述過程相反,根據分割順序對圖像進行整體分割,但其分割結果取決于分割順序,結果具有不可控性,因此又有了將兩者相結合的區域分裂合并方式。區域分裂合并以圖像本身為起點,經過像素之間的分裂劃分出多個子區域。
第三,基于邊緣的分割方法,該方法的特點是搜索檢測速度快、對邊緣檢測效果好且性能穩定,其基本原理為物體的邊緣會導致圖像灰度等變換較大,通過圖像中邊緣像素的連接,對圖像進行分割[8]。方法的具體操作為通過對圖像的灰度圖求導得到圖像的邊緣,最終得到分割結果。該方法適用于噪聲低,邊緣變化大的圖像。
..............................
第2章 理論基礎介紹
2.1 卷積神經網絡
2.1.1 卷積神經網絡及特點
卷積神經網絡(convolutional neural network,cnn)產生的靈感來源于仿生學原理中生物的神經網絡結構。1998年由lecun等人首次提出了len et。2012年,alexnet被提出。同時隨著圖像數據的日益增多和以gpu為主的計算能力的增強,卷積神經網絡的類型不斷更新,之后又有采用1?1和3?3的卷積核的vggnet,基于并聯卷積的googlelenet,基于殘差結構的resnet。卷積神經網絡的特點有:
(1)局部連接性即提取局部特征,優于卷積中卷積核大小的限制導致每個卷積核只能提取有限信息,隨著卷積的層層疊加,在高層的卷積中將感受到的局部區域進行合并得到全局信息。
(2)權值共享,在卷積神經網絡中一個卷積核可以得到一種特征信息,將這一個卷積核作用于整個網絡,即可得到一張具有某種特征的特征圖。在這一過程中僅使用一個卷積核進行權值共享,能有效的減少參數量,并降低訓練復雜度。
(3)自動特征提取,對圖像進行卷積操作得到的矩陣即是特征圖,即自動特征提取。多次卷積可以得到多種不同的結果,即高維特征圖,高維特征圖中包含較多的特征信息。
(4)平移不變性,即目標對象變換到其他位置,卷積神經網絡仍能識別目標,卷積后的結果與變換之前相同,這一特性使得可以對原圖使用反轉等圖像增強方法。
...................................
2.2 殘差網絡
2.2.1 殘差網絡的產生
隨著卷積神經網絡的發展,模型復雜度更高,得到的結果也更符合預期。但是隨著卷積層數不斷的增加會出現“退化”的情況,其具體表現是網絡性能快速下降,預測效果越來越差。
解決上述問題的方法有兩種,第一種可以通過調整初始化的參數和梯度下降方法,第二種方法可以通過調整網絡結構,使其更易于優化。殘差網絡即是通過提出了殘差結構來解決,通過提出的殘差結構弱化每層之間的強聯系,使得網絡結構可以有多層,并且提出使用批歸一化(batch normalization,bn)來解決梯度消失和梯度爆炸的現象。
2.2.2 殘差結構
殘差結構(residual block)模型的構造如圖所示,殘差模塊中包含著兩個不同的分支,其中f(x)由x通過多個連續的權重層和relu函數計算得到,將得到的特征圖f(x)和原特征圖x通過旁支(shortcut)結構連接并使對應元素相加,這里要求特征圖f(x)和x大小相同并且通道數相同,最終得到殘差結構的結果。
計算機論文怎么寫
文中提出了兩個具體的殘差模塊為基礎模塊,其輸入通道數為64的特征圖,通過兩層的網絡處理得到通道數仍為64的特征圖,之后將其與原圖對應元素相加并輸入relu函數中得到最終結果。為瓶頸模塊,其輸入的矩陣的通道數為256,先降低通道數再進行之后的操作,以此減少參數量和計算量,之后通過3?3卷積最后使用1?1升維卷積將通道數恢復至256,并將兩者的對應元素相加。
...............................
第3章 基于雙通道特征融合的實時語義分割網絡
3.1 網絡整體結構
....................................
3.2 網絡詳細結構
.................................
第4章 基于多尺度特征融合的實時語義分割網絡
4.1 網絡整體結構
網絡整體結構其中包含骨干網絡resnet-18、改進的空間金字塔池化ds-aspp模塊和改進的自適應空間特征融合ca-asff模塊。
計算機論文參考
網絡首先通過骨干網絡獲得不同階段特征信息,骨干網絡仍采用輕量化殘差網絡resnet-18,保證實時性和準確性。之后通過改良的空間金字塔池化ds-aspp模塊,模塊采用計算量更小的卷積來獲取多尺度特征圖,并使用獲得的多尺度特征圖解決輪廓模糊問題。最后通過改進的自適應空間特征融合ca-asff模塊,將上述模塊中得到的多尺度特征圖有效的自適應融合,得到預測結果。
4.2 網絡詳細結構
........................
結論
圖像語義分割的使用遍及生產生活中,但在具體應用過程中由于生產環境的設備等其他條件限制,實時語義分割還需要向著精度高速度快的方向發展。本文深入研究分析基于特征融合的語義分割方法,對實時語義分割方法中的不足,通過對現有方法中利弊的分析提出改進方向,并結合具體的實驗對基于特征融合的實時語義分割方法進行了詳細的研究。具體的,本文從特征融合角度出發,結合注意力機制、深度可分離卷積、上下文語義信息、多尺度特征圖等提出了兩個不同的實時語義分割方法,主要得出以下兩個結論:
(1)構建了基于雙通道特征融合的實時語義分割方法。本文對當前的特征融合方式進行深入的研究和分析,設計了一個高效的雙通道特征融合模塊。為了提高模型的感受野并且加快模型推理速度,設計了一個輕量化注意力模塊。骨干網絡采用輕量化的殘差網絡resnet-18保證分割精度的同時也能有效提升分割速度。實驗結果表明,提出的分割方法能夠達到分割應用的要求,能夠適用于實時語義分割任務中。
(2)提出了基于多尺度特征融合的實時語義分割方法。本文對于當前的多尺度特征圖融合方法進行分析,結合注意力機制優化每個分支的結構,并細化每個分支的作用,強化主分支的作用,對于其他的輔助分支僅在訓練階段提供損失函數,在預測階段不再計算輔助分支以減少計算量。之后研究了深度可分離卷積的計算優勢,提出了基于深度可分離的金字塔池化模塊,該模塊可以通過較少的計算量提取多尺度特征圖。
參考文獻(略)
本文收集整理于網絡,如有侵權請聯系客服刪除!