當 AI 不只「看見」，更能「看懂」：解密視覺語言模型與邊緣運算的火花！

嘿，大家好！我們是 Advantech 的技術探險家。今天想跟大家聊聊一個超酷的話題：當人工智慧（AI）學會了像人類一樣「看圖說故事」，會為我們的世界帶來什麼樣的改變？

想像一下，如果機器不只能辨識出照片裡有一隻貓，還能告訴你「這是一隻慵懶的橘貓，在灑滿陽光的窗邊打盹」。這聽起來是不是很神奇？這就是我們今天要介紹的主角—— 視覺語言模型（Vision Language Models, VLM） 的魔力！

在 Advantech，我們不只關注最新技術，更熱衷於將這些技術落地應用。最近，我們的工程師團隊就進行了一項有趣的實驗，想知道這些聰明的 VLM 能不能在小巧的邊緣運算裝置上順暢運作。準備好了嗎？跟我們一起來看看 AI 視覺技術的演進，以及 Advantech 如何在這波浪潮中引領創新吧！

從「看見」到「理解」：AI 視覺技術的進化之旅
#

在 VLM 出現之前，我們有 傳統電腦視覺（Traditional Computer Vision） 。你可以把它想像成 AI 視覺技術的「前輩」。

傳統電腦視覺：打好基礎的資優生
#

傳統電腦視覺讓機器學會「看見」。透過工程師精心設計的演算法，機器可以：

影像分類： 判斷一張圖片是貓還是狗。
物件偵測： 在畫面中框出所有的汽車和行人（大家熟知的 YOLO 就是這方面的佼佼者！）。
影像分割： 精確地描繪出影像中每個物件的輪廓。

這些技術非常厲害，在品管、安防監控、醫療影像分析等領域立下了汗馬功勞。它們通常計算效率高，對數據量的要求也相對較少。

但傳統電腦視覺也有它的侷限：

需要「老師傅」帶領： 很大程度依賴工程師的經驗來設計特徵，調整彈性較小。
理解力有限： 比較難理解複雜的場景或圖片與文字之間的關聯。它能認出「車子」，但很難描述「一輛紅色的跑車正在賽道上奔馳」。

這時候，更聰明、更能理解上下文的 VLM 就登場了！

視覺語言模型（VLM）：看圖說故事的語言學家
#

VLM 是 AI 界的新星，它最大的特色就是同時理解「圖像」和「文字」。這就像給 AI 同時裝上了眼睛和嘴巴，讓它不僅能看，還能說、能理解！

VLM 能做到什麼？

圖像描述生成： 自動為圖片產生詳細的文字說明。
視覺問答（VQA）： 你可以問 AI 關於圖片的問題，例如「圖片裡有多少人戴著帽子？」，它能看圖回答你。
圖文匹配： 判斷一段文字描述和一張圖片是否相符。

像 OpenAI 的 CLIP、Salesforce 的 BLIP，以及我們這次實驗的主角 VILA，都是 VLM 家族的代表。它們通常使用一種叫做 Vision Transformer (ViT) 的技術來更全面地理解圖像的內容，就像人類能同時注意到細節和整體畫面一樣。

VLM 的優勢：

學習能力強： 能從大量的圖文資料中自主學習，不需手動設計特徵。
理解更深入： 能理解圖像的語意和上下文，而不僅僅是辨識物件。
應用更廣泛： 在視覺搜尋、智慧客服、內容創作等領域潛力無限。

簡單比較一下：

特徵	傳統電腦視覺 (以 YOLO 為例)	視覺語言模型 (VLM)
核心能力	物件偵測、分類	圖文理解、生成、問答
學習方式	依賴人工設計特徵 + 演算法	從大量圖文資料端到端學習
理解深度	側重視覺模式	理解視覺+文字語意、上下文
彈性	特定任務導向	適應性強，可用自然語言互動
強項	速度快、特定任務效率高	零樣本學習、複雜情境理解

Advantech 實驗室：把 VLM 帶到「邊緣」！
#

VLM 這麼厲害，但它們通常模型很大，需要強大的計算資源。可是，許多應用場景，像是工廠的即時監控、自駕車的環境感知，都需要在 靠近資料來源的「邊緣端」 進行運算，才能達到低延遲、高效率、保護隱私的目的。

這就帶來了一個挑戰：我們能在小巧、資源有限的邊緣裝置上，順暢地運行這些聰明的 VLM 嗎？

這就是 Advantech 工程師們這次實驗的核心目標！我們選用了：

模型： VILA 1.5-3b (一個相對輕巧但功能強大的 VLM)
平台： NVIDIA Jetson Orin Nano Super 8GB (Advantech 常用的高效能邊緣運算平台)

實驗過程亮點：

我們的工程師就像經驗豐富的調校師，一步步讓 VILA 在 Jetson Orin Nano 上跑起來：

部署挑戰： 我們發現，即使是 3B 參數的 VILA 模型，對於 8GB 記憶體的 Orin Nano 來說還是有點吃力。就像要把一個大家具塞進小房間，需要一些技巧。
聰明優化 - MLC 大顯身手： 我們利用了 MLC (機器學習編譯器) 這個秘密武器。MLC 可以進行模型量化，想像成把模型的「體積」壓縮，例如把原本需要很多空間儲存的數字，用更精簡的方式表示 (例如 4 位元整數)。這樣一來，模型佔用的記憶體變少了，運算速度也變快了！這對於資源有限的邊緣裝置至關重要。
資源管理技巧： 工程師們還嘗試了一些方法來「擠出」更多記憶體空間，例如：
- 設定虛擬記憶體 (Swap Memory)。
- 調整模型的「思考範圍」(Context Length) 和「回答長度」(Max New Tokens)。
秘密武器 - JetPack Super 模式： 我們還利用了 NVIDIA JetPack 6.2 SDK 中的「Super 模式」，這就像給 Orin Nano 打了一劑強心針，能進一步提升 AI 推理的效能！

實驗結果：成功！

經過一番努力，我們證明了在 NVIDIA Jetson Orin Nano Super 8GB 上運行 VILA 1.5-3b 是完全可行的！ 這代表著，未來我們可以在 Advantech 的邊緣運算平台上，部署更智慧、更能理解複雜情境的 AI 應用。這不僅展現了 Advantech 在邊緣 AI 領域的技術實力，也證明了我們持續探索、克服挑戰的研發精神！

VLM + 邊緣運算 = 未來的無限可能
#

這次成功的實驗，為 VLM 在各行各業的邊緣應用打開了想像空間。想想看：

智慧零售： 未來的商店助理不只能掃描條碼，還能看懂顧客拍的商品照片，立即提供相關資訊或推薦類似商品。店內攝影機不只計算人流，更能理解顧客行為，優化購物體驗。
- 傳統 CV： 貨架庫存監控、人流熱點圖。
- VLM 升級： 圖像搜尋商品、結合偏好的智慧推薦、看圖回答顧客問題的聊天機器人。
智慧醫療： AI 不只協助醫生判讀 X 光片，更能自動生成初步的影像報告，或回答醫生關於特定影像區域的問題，提升診斷效率。
- 傳統 CV： 影像異常偵測、腫瘤分割。
- VLM 升級： 自動生成放射學報告、影像問答、結合視覺與數據的遠距監控。
智慧製造： 品質檢測不只看外觀，更能結合產品規格文字，找出更細微的瑕疵。AI 能看懂 CAD 設計圖，自動標註特徵。工安監控更能結合安全規範文字，進行更精準的合規判斷。
- 傳統 CV： 瑕疵檢測、設備監控、PPE 穿戴檢查。
- VLM 升級： 結合規格的複雜瑕疵辨識、CAD 圖特徵識別、對照規範的工安監控。
智慧安防： 監控系統不只偵測異常入侵，更能理解複雜的場景和行為，結合文字報告提供更全面的情勢分析，提升反應速度與準確性。
- 傳統 CV： 入侵偵測、人臉辨識、物件追蹤。
- VLM 升級： 結合上下文的威脅偵測、複雜行為分析、整合圖文的態勢感知。

產業應用對比：

產業領域	傳統電腦視覺（CV）應用	視覺語言模型（VLM）應用
零售業	即時貨架監控與預測庫存管理	透視搜尋（圖片找商品）
	建立零售熱圖分析客流	結合自然語言理解提供推薦
	無人商店的品質辨識與快速結帳	聊天機器人能依圖片解答商品問題
	商品位置驗證與規範符合性	自動標註圖片中的產品資訊
醫療保健	X光、MRI、CT 影像分析	自動化產出放射診斷報告
	細微病灶早期偵測	影像問答與區域標記
	腫瘤分區與手術輔助	結合外觀與設備資訊遠距監控
	分析影片監控生命徵象	圖文結合的健康助理互動
製造業	生產線瑕疵與品質檢測	結合圖像與規範自動辨識產品缺陷
	設備監控與預測性維護	解釋 CAD 圖並自動標註設計特徵
	PPE 防護裝備檢查	分析圖像並對照安全規範進行合規性檢查
	機器人監控與自動化整線
	庫存管理與監控
安全監控	入侵偵測與未授權活動識別	分析視覺與上下文文字增強監控判斷
	臉部辨識進行門禁控制	理解複雜人際互動並以自然語言描述
	物件偵測與追蹤	將攝影機畫面與文字知識整合提高環境理解
	流量分析與事件判斷
	車牌識別與異常行為監控

結論：擁抱 AI 新視界，Advantech 與您同行
#

從傳統電腦視覺到視覺語言模型，AI「看世界」的方式正在經歷一場深刻的變革。VLM 的出現，讓機器不僅能「看見」，更能「理解」和「溝通」，為各行各業帶來前所未有的智慧化潛力。

Advantech 的這次實驗，成功驗證了在邊緣裝置上部署 VLM 的可行性，這不僅是技術上的一小步，更是推動智慧邊緣應用的一大步。它證明了 Advantech 不僅緊跟 AI 技術的最新脈動，更具備將尖端技術轉化為實際應用、克服工程挑戰的強大研發實力。

未來，我們可以期待 VLM 技術將持續進化，變得更強大、更有效率，也更適合在邊緣端部署。Advantech 將持續投入研發，探索 VLM 在工業物聯網 (IIoT)、智慧城市、智慧醫療等領域的更多可能性，攜手我們的客戶與合作夥伴，共同開創一個更智慧、更互聯的未來！

有任何問題或想了解更多？

如果您對文章內容有任何疑問，或對我們的產品感興趣，歡迎隨時與我們聯繫。我們的團隊將很樂意為您提供更多資訊。

電子郵件：

Gary70.Lin@advantech.com.tw

讓AI更貼近你！研華如何在邊緣裝置上玩轉小型語言模型 (sLLM)

27 March 2025· loading

從「看見」到「理解」：AI 視覺技術的進化之旅 #

傳統電腦視覺：打好基礎的資優生 #

視覺語言模型（VLM）：看圖說故事的語言學家 #

Advantech 實驗室：把 VLM 帶到「邊緣」！ #

VLM + 邊緣運算 = 未來的無限可能 #

結論：擁抱 AI 新視界，Advantech 與您同行 #