科學家開發(fā)用于智能手機的“蝙蝠感知”技術(shù) 可利用聲音生成圖像
來源:cnBeta 編輯:QQ123 2021-05-20 08:58:51 加入收藏
值得注意的是,這項技術(shù)的核心是一種復雜的機器學習算法,它利用反射回聲來生成圖像,類似于蝙蝠使用回聲定位進行導航和狩獵的方式。
該算法測量揚聲器發(fā)出的聲音片段或小天線發(fā)出的無線電波脈沖在室內(nèi)空間內(nèi)發(fā)射并返回到傳感器所需的時間。通過巧妙地分析結(jié)果,該算法可以推斷出一個房間的形狀、大小和布局,以及挑選出存在的物體或人。結(jié)果以視頻形式顯示,將回聲數(shù)據(jù)轉(zhuǎn)化為三維視覺。
該團隊的成就與蝙蝠的回聲定位之間的一個關(guān)鍵區(qū)別是,蝙蝠有兩只耳朵來幫助它們導航,而該算法被調(diào)整為與從單點收集的數(shù)據(jù)一起工作,如麥克風或無線電天線。研究人員說,該技術(shù)可用于通過潛在的任何配備有麥克風和揚聲器或無線電天線的設(shè)備來生成圖像。
格拉斯哥大學的計算機科學家和物理學家周日在《物理評論快報》雜志上發(fā)表的一篇論文中概述了這項研究,它可以應(yīng)用于安全和醫(yī)療保健領(lǐng)域。格拉斯哥大學計算科學學院和物理與天文學學院的Alex Turpin博士和Valentin Kapitany博士是該論文的主要作者。
Turpin博士說:“動物的回聲定位是一種了不起的能力,科學已經(jīng)成功地以多種不同的方式重新創(chuàng)造了從反射回聲中生成三維圖像的能力,如RADAR和LiDAR。”
“這項研究與其他系統(tǒng)的不同之處在于,首先,它只需要來自單一輸入的數(shù)據(jù)--麥克風或天線--就能創(chuàng)建三維圖像。其次,我們相信,我們開發(fā)的算法可以將任何具有這兩件裝備中的任何一件的設(shè)備變成回聲定位設(shè)備。”
“這意味著這種三維成像的成本可以大大降低,開辟許多新的應(yīng)用。例如,通過接收入侵者反射的信號,可以在沒有傳統(tǒng)攝像機的情況下保證建筑物的安全。同樣的方法也可以用來追蹤養(yǎng)老院中虛弱病人的行動。我們甚至可以看到該系統(tǒng)被用于跟蹤醫(yī)療機構(gòu)中病人胸部的起伏,提醒工作人員注意他們的呼吸變化。”
該論文概述了研究人員如何使用筆記本電腦的揚聲器和麥克風來產(chǎn)生和接收千赫茲范圍內(nèi)的聲波。他們還使用天線對千兆赫茲范圍內(nèi)的無線電頻率聲音進行了同樣的處理。
在每一種情況下,他們都收集了一個人在房間里走動時對聲波的反射的數(shù)據(jù)。同時,他們還使用一個特殊的相機記錄了房間的數(shù)據(jù),該相機使用一個被稱為飛行時間的過程來測量房間的尺寸并提供一個低分辨率的圖像。
通過結(jié)合來自麥克風的回聲數(shù)據(jù)和來自飛行時間相機的圖像數(shù)據(jù),研究小組在數(shù)百次的重復中“訓練”了他們的機器學習算法,將回聲中的特定延遲與圖像聯(lián)系起來。最終,該算法已經(jīng)學會了僅從回聲數(shù)據(jù)中生成它自己的高度準確的房間及其內(nèi)容的圖像,使它具有感知周圍環(huán)境的“蝙蝠式”能力。
這項研究建立在該團隊以前的工作基礎(chǔ)上,該團隊訓練了一種神經(jīng)網(wǎng)絡(luò)算法,通過使用單像素檢測器測量閃光的反射來建立三維圖像。
Turpin博士補充說:“我們現(xiàn)在已經(jīng)能夠利用光和聲音證明這種算法機器學習技術(shù)的有效性,這非常令人激動。很明顯,這里有很多以新方式感知世界的潛力,我們渴望繼續(xù)探索未來生成更多高分辨率圖像的可能性。”
評論comment