麗臺(tái)科普 | 什么是計(jì)算機(jī)視覺？

來源：麗臺(tái)科技編輯：VI菲 2022-05-12 17:48:20 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機(jī):	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗(yàn)證碼:	不能為空驗(yàn)證碼錯(cuò)誤

確定

麗臺(tái)科普 |計(jì)算機(jī)視覺是一個(gè)研究領(lǐng)域，旨在助力計(jì)算機(jī)使用復(fù)雜算法（可以是傳統(tǒng)算法，也可以是基于深度學(xué)習(xí)的算法）來理解數(shù)字圖像和視頻并提取有用的信息。

　　計(jì)算機(jī)視覺是一個(gè)研究領(lǐng)域，旨在助力計(jì)算機(jī)使用復(fù)雜算法（可以是傳統(tǒng)算法，也可以是基于深度學(xué)習(xí)的算法）來理解數(shù)字圖像和視頻并提取有用的信息。

　　什么是計(jì)算機(jī)視覺？

　　計(jì)算機(jī)視覺的主要目標(biāo)是，先理解視頻和靜止圖像的內(nèi)容，然后從中收集有用的信息，以便解決越來越多的問題。作為人工智能 (AI) 和深度學(xué)習(xí)的子領(lǐng)域，計(jì)算機(jī)視覺可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò) (CNN)，以便針對(duì)各種應(yīng)用場(chǎng)合開發(fā)仿人類視覺功能。計(jì)算機(jī)視覺包括對(duì) CNN 進(jìn)行特定訓(xùn)練，以便利用圖像和視頻進(jìn)行數(shù)據(jù)分割、分類和檢測(cè)。

　　卷積神經(jīng)網(wǎng)絡(luò) (CNN) 能夠針對(duì)多種應(yīng)用場(chǎng)合執(zhí)行分割、分類和檢測(cè)：

　　分割：圖像分割是指將像素歸類為特定類別，如汽車、道路或行人。它廣泛用于自動(dòng)駕駛汽車應(yīng)用(包括 NVIDIA DRIVE™ 軟件堆棧)，用于顯示道路、汽車和人員。您可以將其想象成一種可視化技術(shù)，該技術(shù)能夠使人們更容易理解計(jì)算機(jī)的工作。

　　分類：圖像分類用于確定圖像中的內(nèi)容。例如，神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后能夠識(shí)別狗或貓，或者許多其他東西，并且具有高精確度。

　　檢測(cè)：通過圖像檢測(cè)，計(jì)算機(jī)可以定位對(duì)象的位置。在許多應(yīng)用中，CNN 會(huì)在相關(guān)區(qū)域周圍設(shè)置矩形邊界框，將對(duì)象完全包含在內(nèi)。檢測(cè)器也可以接受訓(xùn)練，以便檢測(cè)圖像中汽車或人員的位置。

　　分割、分類和檢測(cè)

分割	分類	檢測(cè)
非常適合用于描述對(duì)象	是貓還是狗？	它存在于空間中的什么位置？
在自動(dòng)駕駛汽車中使用	精確分類	識(shí)別關(guān)乎安全的事物

　　計(jì)算機(jī)視覺為何重要？

　　在體育、汽車、農(nóng)業(yè)、零售、銀行、施工和保險(xiǎn)等行業(yè)，計(jì)算機(jī)視覺應(yīng)用非常廣泛。得益于目前機(jī)器用于識(shí)別物體的圖像處理器 – 卷積神經(jīng)網(wǎng)絡(luò) (CNN) ，各種由 AI 驅(qū)動(dòng)的機(jī)器紛紛開始采用仿人眼技術(shù)來獲得更多助力。CNN 已成為當(dāng)今自動(dòng)駕駛汽車、石油勘探和聚變能源研究領(lǐng)域的“眼睛”。它們還有助于在醫(yī)學(xué)成像領(lǐng)域快速發(fā)現(xiàn)疾病并挽救生命。

　　數(shù)十年來，傳統(tǒng)的計(jì)算機(jī)視覺和圖像處理技術(shù)已經(jīng)應(yīng)用于眾多應(yīng)用和研究工作。然而，現(xiàn)代 AI 技術(shù)采用人工神經(jīng)網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)更高的性能準(zhǔn)確性;高性能計(jì)算依托 GPU 取得長(zhǎng)足進(jìn)步，實(shí)現(xiàn)超人的準(zhǔn)確性，從而在運(yùn)輸、零售、制造、醫(yī)療健康和金融服務(wù)等行業(yè)廣泛應(yīng)用。

　　在將圖像和視頻分類為精細(xì)離散的類別和分類方面，如同醫(yī)學(xué)計(jì)算機(jī)軸向斷層掃描或 CAT 掃描中隨時(shí)間推移而產(chǎn)生的微小變化，傳統(tǒng)或基于 AI 的計(jì)算機(jī)視覺系統(tǒng)遠(yuǎn)勝于人類。在這個(gè)意義上，計(jì)算機(jī)視覺將人類有可能完成的任務(wù)自動(dòng)化，但其準(zhǔn)確性和速度要高得多。

　　當(dāng)前和潛在的應(yīng)用多種多樣，因此計(jì)算機(jī)視覺技術(shù)和解決方案的增長(zhǎng)預(yù)測(cè)相當(dāng)驚人，這點(diǎn)不足為奇。一項(xiàng)市場(chǎng)調(diào)研表明，到 2023 年，該市場(chǎng)將以驚人的 47% 的年增長(zhǎng)率增長(zhǎng)，屆時(shí)將在全球達(dá)到 250 億美元。在整個(gè)計(jì)算機(jī)科學(xué)范疇內(nèi)，計(jì)算機(jī)視覺是熱門、活躍的研發(fā)領(lǐng)域之一。

　　計(jì)算機(jī)視覺的工作原理是什么？

　　計(jì)算機(jī)視覺分析圖像，然后使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 創(chuàng)建其 “所見” 的數(shù)值表示。CNN 是一類人工神經(jīng)網(wǎng)絡(luò)，使用卷積層從輸入中篩選出有用信息。卷積運(yùn)算需要綜合使用輸入數(shù)據(jù)(特征圖)與卷積內(nèi)核(濾波器)，以便生成轉(zhuǎn)換后的特征圖。卷積層濾波器可根據(jù)學(xué)習(xí)參數(shù)進(jìn)行修改，以便為特定任務(wù)提取最有用的信息。卷積網(wǎng)絡(luò)可根據(jù)任務(wù)自動(dòng)調(diào)整，尋找最重要的特征。在執(zhí)行一般的物體識(shí)別任務(wù)時(shí)，CNN 會(huì)過濾物體的形狀信息;但在進(jìn)行識(shí)別鳥的任務(wù)時(shí)，CNN 則會(huì)提取鳥的顏色信息。這是由于 CNN 認(rèn)為，不同類的物體會(huì)具有不同的形狀，而對(duì)于不同類型的鳥而言，其顏色可能要比形狀的差異性更大。

　　計(jì)算機(jī)視覺的行業(yè)用例

　　計(jì)算機(jī)視覺用例包括圖像識(shí)別、圖像分類、視頻標(biāo)記和虛擬助手。計(jì)算機(jī)視覺領(lǐng)域中更加流行和突出的用例包括：

　　醫(yī)學(xué)。

　　醫(yī)學(xué)圖像處理需要快速提取重要的圖像數(shù)據(jù)以便對(duì)患者進(jìn)行正確診斷，包括快速檢測(cè)腫瘤和動(dòng)脈硬化。雖然計(jì)算機(jī)視覺本身無法提供診斷，但它是現(xiàn)代醫(yī)療診斷技術(shù)中寶貴的一部分，可以更大程度地弱化醫(yī)生的想法，并且為醫(yī)生提供越來越多的原本無法看到的信息。

　　自動(dòng)駕駛汽車。

　　另一個(gè)非?；钴S的計(jì)算機(jī)視覺調(diào)研領(lǐng)域，自動(dòng)駕駛車輛可以完全由計(jì)算機(jī)視覺解決方案接管，或者其操作可以得到顯著增強(qiáng)。目前已有的常用應(yīng)用包括汽車中的早期警報(bào)系統(tǒng)。

　　行業(yè)用途。

　　制造業(yè)中有很多計(jì)算機(jī)視覺解決方案的當(dāng)前和潛在用途，以支持制造流程。目前的用途包括質(zhì)量控制，其中計(jì)算機(jī)視覺系統(tǒng)會(huì)檢查部件和產(chǎn)品成品是否有缺陷。在農(nóng)業(yè)領(lǐng)域，計(jì)算機(jī)視覺系統(tǒng)使用光學(xué)分揀去除食品中不需要的材質(zhì)。

　　數(shù)據(jù)科學(xué)家和計(jì)算機(jī)視覺

　　Python 是機(jī)器學(xué)習(xí) (ML) 領(lǐng)域的熱門編程語言，許多數(shù)據(jù)科學(xué)家都熟悉其易用性及其大型庫(其中大多數(shù)庫都是免費(fèi)和開源的)。數(shù)據(jù)科學(xué)家在 ML 系統(tǒng)中使用 Python 進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析，因?yàn)?Python 支持各種 ML 模型和算法。鑒于 ML 和計(jì)算機(jī)視覺之間的關(guān)系，數(shù)據(jù)科學(xué)家可以利用計(jì)算機(jī)視覺應(yīng)用向各類企業(yè)的擴(kuò)展，從圖像和視頻存儲(chǔ)中提取重要信息，增強(qiáng)數(shù)據(jù)驅(qū)動(dòng)的決策制定。

　　借助 GPU 加速卷積神經(jīng)網(wǎng)絡(luò)

　　在架構(gòu)方面，CPU 僅由幾個(gè)具有大緩存內(nèi)存的核心組成，一次只可以處理幾個(gè)軟件線程。相比之下，GPU 由數(shù)百個(gè)核心組成，可以同時(shí)處理數(shù)千個(gè)線程。

　　由于神經(jīng)網(wǎng)絡(luò)由大量相同的神經(jīng)元構(gòu)建而成，因此本質(zhì)上具有高度并行性。這種并行性自然地會(huì)映射到 GPU ，能夠提供數(shù)據(jù)并行的算術(shù)架構(gòu)，并且相比僅限 CPU 的訓(xùn)練，計(jì)算速度大幅增加。這種類型的架構(gòu)對(duì)一系列圖像數(shù)據(jù)執(zhí)行類似的計(jì)算。GPU 的單指令多數(shù)據(jù) (SIMD) 功能使其適合運(yùn)行計(jì)算機(jī)視覺任務(wù)，這些任務(wù)通常涉及對(duì)整個(gè)圖像進(jìn)行類似的計(jì)算。具體而言，NVIDIA GPU 可顯著加速計(jì)算機(jī)視覺操作，為其他工作釋放 CPU 。此外，在同一臺(tái)機(jī)器上可以使用多個(gè) GPU ，創(chuàng)建能夠并行運(yùn)行多個(gè)計(jì)算機(jī)視覺算法的架構(gòu)。

　　NVIDIA GPU 加速的深度學(xué)習(xí)框架

　　GPU 加速深度學(xué)習(xí)框架為 Python 等常用編程語言提供編程接口。其還具備輕松創(chuàng)建和探索自定義 CNN 和 DNN 的靈活性，同時(shí)能夠?qū)崿F(xiàn)實(shí)驗(yàn)和工業(yè)部署所需的超高速度。NVIDIA CUDA-X AI 能夠加快 Caffe 、Microsoft Cognitive Toolkit (CNTK) 、TensorFlow 、Theano 和 Torch 等廣泛使用的深度學(xué)習(xí)框架以及眾多其他機(jī)器學(xué)習(xí)應(yīng)用的運(yùn)行速度。深度學(xué)習(xí)框架在 GPU 上的運(yùn)行速度更快，并可以在單節(jié)點(diǎn)內(nèi)的多個(gè) GPU 間擴(kuò)展。要將框架與 GPU 一起用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過程，NVIDIA 分別提供 cuDNN 和 TensorRT™ 。cuDNN 和 TensorRT 可為卷積層、池化層、歸一化和激活層等標(biāo)準(zhǔn)例程實(shí)現(xiàn)高度調(diào)整。

　　單擊此處查看 NVCaffe 安裝步驟和使用指南?？稍诖颂幷业骄矸e神經(jīng)網(wǎng)絡(luò) C++/CUDA 快速實(shí)施。

　　為快速開發(fā)和部署視覺模型，NVIDIA 向視覺 AI 開發(fā)者提供 DeepStream SDK 。其中包含 TAO 工具包，可用于為計(jì)算機(jī)視覺領(lǐng)域創(chuàng)建準(zhǔn)確高效的 AI 模型。

　　NVIDIA GPU 加速的端到端數(shù)據(jù)科學(xué)

　　建立在 CUDA 基礎(chǔ)上的 NVIDIA RAPIDS™ 開源軟件庫套件使您能夠完全在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程，同時(shí)仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

　　*本文轉(zhuǎn)載自NVIDIA英偉達(dá)

免責(zé)聲明：本文來源于麗臺(tái)科技，本文僅代表作者個(gè)人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請(qǐng)與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明來源)

久草久热,国产三级理论片,国产精品欧美日韩视频一区,热热色国产,91av视频网站,日韩国产欧美视频一区二区三区,婷婷五月五

我的位置：

麗臺(tái)科普 | 什么是計(jì)算機(jī)視覺？

評(píng)論comment

重磅！建碁AOPEN攜ChromeOS OPS電腦BP5130亮相2025年臺(tái)北國(guó)際電腦展！

光影與文化的交響：奧圖碼投影科技重塑夜游文旅新體驗(yàn)

建碁 AOPEN 邀請(qǐng)函 | 2025年臺(tái)北國(guó)際電腦展COMPUTEX 2025！

【Infocomm 2025】DAV專訪?？低曇詧?chǎng)景化創(chuàng)新引領(lǐng)音視頻新時(shí)代

我的位置：

share

相關(guān)閱讀related

評(píng)論comment