NEWS

—— 新聞中心 ——

工業(yè)物聯(lián)網(wǎng)產(chǎn)品農(nóng)業(yè)物聯(lián)網(wǎng)信息化通信設(shè)備大數(shù)據(jù)與AI產(chǎn)品解決方案

【智能IoT】SLAM技術(shù)框架

發(fā)布時間：2019-12-29瀏覽次數(shù)：0

SLAM技術(shù)框架

原作者: sixgod 來自: 計算機視覺life

通過《SLAM初識》，我們對SLAM有了個粗淺的認識，我們知道SLAM可以一邊建圖一邊定位，還可以用建立好的地圖進行導(dǎo)航。

有同學問現(xiàn)在手機上的百度/高德/騰訊等地圖類App不就可以做到嗎，為什么還需要SLAM？這里解釋一下：目前地圖類App在室外定位、導(dǎo)航方面確實做的很不錯，而且衍生出很多基于地理位置的游戲、社交、生活類應(yīng)用。這是因為地圖類App背后使用的是GPS技術(shù)，據(jù)說美國軍用GPS精度可以達到厘米級定位精度，而開放給大眾使用的民用GPS也可以達到米級的定位精度。但是，GPS只能在室外使用！而要想解決建筑物內(nèi)、洞穴、海底等在GPS失效地域的定位、建圖、姿態(tài)估計、路徑規(guī)劃，目前最有效的就是SLAM技術(shù)。下面這個視頻描述的是美國賓夕法尼亞大學的Vijay Kumar教授的團隊在幾年前的工作，展示了搭載SLAM技術(shù)的無人機是如何快速的對復(fù)雜建筑物內(nèi)部建圖的。

搭載SLAM技術(shù)的無人機室內(nèi)建圖

最早的SLAM雛形是在軍事（核潛艇的海底定位）上的應(yīng)用，主要傳感器是軍用雷達。SLAM技術(shù)發(fā)展到如今已經(jīng)幾十年，目前以激光雷達作為主傳感器的SLAM技術(shù)比較穩(wěn)定、可靠，仍然是主流的技術(shù)方案。但隨著最近幾年計算機視覺技術(shù)的快速發(fā)展，SLAM技術(shù)越來越多的應(yīng)用于家用機器人、無人機、AR設(shè)備，基于視覺的Visual SLAM（簡稱VSLAM）逐漸開始嶄露頭角。

VSLAM技術(shù)架構(gòu)

本文主要介紹目前非常熱門的VSLAM的技術(shù)框架，未來會有非常好的前景。VSLAM的技術(shù)框架如下，主要包括傳感器數(shù)據(jù)預(yù)處理、前端、后端、回環(huán)檢測、建圖。

1、傳感器數(shù)據(jù)

傳感器數(shù)據(jù)預(yù)處理。這里的傳感器包括攝像頭、慣性測量單元（Inertial measurement unit，簡稱IMU）等，涉及傳感器選型、標定、多傳感器數(shù)據(jù)同步等技術(shù)。

不同類型視覺傳感器的對比

2、前端

又稱為視覺里程計（visual odometry，簡稱VO）。主要是研究如何根據(jù)相鄰幀圖像定量估算幀間相機的運動。通過把相鄰幀的運動軌跡串起來，就構(gòu)成了相機載體（如機器人）的運動軌跡，解決了定位的問題。然后根據(jù)估算的每個時刻相機的位置，計算出各像素的空間點的位置，就得到了地圖。

VSLAM中，前端主要涉及計算機視覺相關(guān)的算法。典型做法一般是：首先提取每幀圖像特征點，對相鄰幀進行特征點粗匹配，然后利用RANSAC（隨機抽樣一致）算法去除不合理的匹配對，然后得到位置和姿態(tài)信息。整個過程涉及到特征提取、特征匹配、對極幾何、PnP、剛體運動、李代數(shù)等多視圖幾何知識。

相鄰圖像特征點匹配

前面說視覺里程計只計算相鄰幀的運動，進行局部估計，這會不可避免的出現(xiàn)累積漂移，這是因為每次估計兩個圖像間的運動時都有一定的誤差，經(jīng)過相鄰幀多次傳遞，前面的誤差會逐漸累積，軌跡漂移（drift）的越來越厲害。

軌跡漂移現(xiàn)象

解決軌跡漂移的方法有兩個：后端優(yōu)化、回環(huán)檢測。

3、后端

主要是對前端的結(jié)果進行優(yōu)化，得到最優(yōu)的位姿估計。主要有兩種方法：

一種是基于濾波理論的優(yōu)化，主要有 EKF, PF, RBPF, UKF等方法，其中EKF（擴展卡爾曼濾波）在早期是主流的方法。它的思路是將狀態(tài)估計模型線性化，并用高斯分布近似其噪聲，然后按照卡爾曼濾波進行預(yù)測來更新。但是實際上，這種對噪聲的高斯分布大部分情況下是不成立的，此外，線性化過程中丟失了高階項。

另一種就是非線性優(yōu)化（圖優(yōu)化）。它的基本思想是將優(yōu)化的變量作為圖的節(jié)點，誤差項作為圖的邊，在給定初值后，就可以迭代優(yōu)化更新。由于圖優(yōu)化的稀疏性，可以在保證精度的同時，降低計算量。

后端優(yōu)化涉及到的數(shù)學知識比較多，具有較高的難度?？偟膩碚f，從狀態(tài)估計的角度來講，SLAM是一個非線性非高斯系統(tǒng)。因此傳統(tǒng)的濾波理論已經(jīng)逐漸被拋棄，而圖優(yōu)化已經(jīng)成為主流方法。

4、回環(huán)檢測

主要目的是讓機器人能夠認識自己曾經(jīng)去過的地方，從而解決位置隨時間漂移的問題。視覺回環(huán)檢測一般通過判斷圖像之間的相似性完成，這和我們?nèi)祟愑醚劬砼袛鄡蓚€相同的地點是一樣的道理。因為圖像信息豐富，因此VSLAM在回環(huán)檢測中具有很大的優(yōu)勢。

回環(huán)檢測效果

當回環(huán)檢測成功后，就會建立現(xiàn)在的圖像和過去曾經(jīng)見過圖像的對應(yīng)關(guān)系，后端優(yōu)化算法可以根據(jù)這些信息來重新調(diào)整軌跡和地圖，從而較大限度地消除累積誤差。

5、建立地圖

SLAM根據(jù)不同的傳感器類型和應(yīng)用需求建立不同的地圖。常見的有2D柵格地圖、2D拓撲地圖、3D點云地圖等。

比如前面提到過的掃地機器人，它只需要知道房屋內(nèi)部的簡單二維地圖就可以了，不需要知道房屋到底有多高；它只需要知道哪里可以通過，哪里是障礙物，而不需要知道這個障礙物到底是什么，長什么樣子；因此目前大部分具有SLAM功能的掃地機器人幾乎都是采用廉價的消費級激光雷達方案，很少采用視覺SLAM方案（VSLAM也不夠穩(wěn)定）。

掃地機器人建立的2D地圖

2D拓撲地圖更強調(diào)地圖元素之間的連通關(guān)系，而對較精確的位置要求不高，去掉了大量地圖的細節(jié)，是一種非常緊湊的地圖表達方式。如下所示：

2D拓撲地圖

3D點云地圖在VSLAM中用的比較多，主要用于真實場景的視覺重建，重建的地圖非常直觀漂亮。但是點云地圖通常規(guī)模很大，比如一張VGA分辨率（640 x 480）的點云圖像，就會產(chǎn)生30萬個空間點，這會占據(jù)非常大的存儲空間，而且存在很多冗余信息。

3D點云地圖

總結(jié)

前面介紹了VSLAM的典型技術(shù)框架。我們可以看到，將SLAM算法拆解后，用到的技術(shù)多是傳統(tǒng)的計算機視覺算法，尤其是多視角幾何相關(guān)知識。與當前大熱的深度學習“黑箱模型”不同，SLAM的各個環(huán)節(jié)基本都是白箱，能夠解釋得非常清楚。但SLAM算法并不是上述各種算法的簡單疊加，而是一個需要相互折中、密切配合的復(fù)雜系統(tǒng)工程。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群（QQ群：956787284，AI-人工智能交流群）

興趣范圍包括：各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識