在計(jì)算機(jī)語(yǔ)音識(shí)別領(lǐng)域有一個(gè)著名的難題——“雞尾酒會(huì)問(wèn)題(Cocktail Party Problem)”,說(shuō)的是當(dāng)前語(yǔ)音識(shí)別技術(shù)已經(jīng)可以以較高精度識(shí)別一個(gè)人所講的話,但是當(dāng)說(shuō)話的人數(shù)為兩人或者多人時(shí),語(yǔ)音識(shí)別率就會(huì)極大的降低。計(jì)算機(jī)無(wú)法將目標(biāo)聲音與其他人同時(shí)發(fā)出的聲音區(qū)別開(kāi)來(lái)。
如今,來(lái)自美國(guó)杜克大學(xué)的科學(xué)家們使用一種簡(jiǎn)單的3D打印裝置,巧妙地解決了這個(gè)問(wèn)題??茖W(xué)家們?yōu)榇嗽凇?/span>Proceedings of the National Academy of Sciences》雜志上發(fā)表了一篇論文介紹了這個(gè)奇妙的3D打印解決方案。
他們首先制造出了一個(gè)又大又厚的3D打印塑料盤(pán),在塑料盤(pán)的一面有36個(gè)開(kāi)口,以及許多蜂窩狀的通道通向塑料盤(pán)中心的一個(gè)麥克風(fēng)。它本質(zhì)上是一個(gè)結(jié)合了聲學(xué)超材料和壓縮傳感技術(shù)的單一傳感器聽(tīng)音系統(tǒng)。
“與以前的研究通常依賴于信號(hào)和語(yǔ)音處理技術(shù)來(lái)解決“雞尾酒會(huì)”問(wèn)題不同,我們提出的方法是一個(gè)獨(dú)特的基于硬件的方法,主要利用了經(jīng)過(guò)精心設(shè)計(jì)的聲學(xué)超材料。”研究人員寫(xiě)道,“我們堅(jiān)信,這一方法不僅能夠解決過(guò)去數(shù)十年來(lái)各個(gè)領(lǐng)域的研究人員一直孜孜以求的雞尾酒會(huì)聽(tīng)音問(wèn)題,而且這種將物理層的設(shè)計(jì)與計(jì)算感知相結(jié)合的系統(tǒng)設(shè)計(jì)方法將會(huì)對(duì)傳統(tǒng)的聲學(xué)傳感和成像方式產(chǎn)生影響。”
這項(xiàng)研究是在Steven Cummer和Yangbo Xie的領(lǐng)導(dǎo)下進(jìn)行的。
那么它的工作原理到底是什么呢?研究人員稱,這36個(gè)通向麥克風(fēng)的通道每個(gè)都有著獨(dú)特的3D打印形狀導(dǎo)致其功能特性有所區(qū)別,使得聲音傳向中心的方式有著微妙的不同,因而可以彼此區(qū)分,并被單個(gè)傳感器接收。Yangbo Xie稱,我們?nèi)祟悷o(wú)法區(qū)分其中的差別,但是基于該傳感器的算法幾乎總是可以告訴我們這些聲音是從哪個(gè)想來(lái)的。
至于該解決方案的正確性。研究人員在其論文中宣稱:“這款帶有共振超材料緊湊陣列的設(shè)備被證明可以區(qū)分識(shí)別來(lái)自三個(gè)獨(dú)立來(lái)源的重疊音頻,正確率高達(dá)96.67%。”。這個(gè)簡(jiǎn)單、但有效的方法已被人們譽(yù)為一個(gè)優(yōu)秀的解決方案。不過(guò)目前唯一的問(wèn)題是它的大小——它大約相當(dāng)于一個(gè)很厚的比薩,但是顯然它具有足夠的空間優(yōu)化設(shè)計(jì),并用于進(jìn)一步的應(yīng)用。杜克大學(xué)的科學(xué)家們表示,它可以適用于助聽(tīng)器等聲學(xué)成像和傳感應(yīng)用,所以我們可能會(huì)在不久的將來(lái)看到這項(xiàng)技術(shù)的一個(gè)更小版本。
轉(zhuǎn)載請(qǐng)注明出處。