【導(dǎo)讀】TWS耳機(jī)正經(jīng)歷從簡單音頻設(shè)備到智能可穿戴計(jì)算機(jī)的轉(zhuǎn)型。這些設(shè)備如今需要處理實(shí)時(shí)語音增強(qiáng)、環(huán)境降噪、語音識(shí)別、生物追蹤等多重任務(wù),而所有這些功能都需在嚴(yán)格的功耗預(yù)算和硬件限制下實(shí)現(xiàn)。現(xiàn)代TWS耳機(jī)的設(shè)計(jì)面臨巨大挑戰(zhàn):端到端音頻延遲需保持在4-10毫秒,始終監(jiān)聽功能必須以微瓦級(jí)功耗待機(jī),片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰(zhàn)的關(guān)鍵不在于單一的神奇模型或更快的核心,而在于一系列創(chuàng)新壓縮技術(shù)的綜合應(yīng)用。
通過稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù),TWS耳機(jī)在不大幅增加電池容量或使用更昂貴芯片的情況下,成功實(shí)現(xiàn)了多模型AI功能的集成與協(xié)作。
TWS耳機(jī)正經(jīng)歷從簡單音頻設(shè)備到智能可穿戴計(jì)算機(jī)的轉(zhuǎn)型。這些設(shè)備如今需要處理實(shí)時(shí)語音增強(qiáng)、環(huán)境降噪、語音識(shí)別、生物追蹤等多重任務(wù),而所有這些功能都需在嚴(yán)格的功耗預(yù)算和硬件限制下實(shí)現(xiàn)?,F(xiàn)代TWS耳機(jī)的設(shè)計(jì)面臨巨大挑戰(zhàn):端到端音頻延遲需保持在4-10毫秒,始終監(jiān)聽功能必須以微瓦級(jí)功耗待機(jī),片上SRAM容量緊張,閃存占用空間固定。解決這些挑戰(zhàn)的關(guān)鍵不在于單一的神奇模型或更快的核心,而在于一系列創(chuàng)新壓縮技術(shù)的綜合應(yīng)用。
01 技術(shù)挑戰(zhàn):微型設(shè)備的AI化困境
TWS耳機(jī)集成AI功能面臨多重約束。功耗限制是最主要的挑戰(zhàn),設(shè)備需要在不增大電池體積的情況下實(shí)現(xiàn)所有功能;計(jì)算資源有限,片上內(nèi)存和存儲(chǔ)空間極為緊張;實(shí)時(shí)性要求高,音頻處理需要低延遲響應(yīng);成本壓力大,不能使用過于昂貴的芯片解決方案。
這些約束條件使得傳統(tǒng)的AI模型部署方式不可行。現(xiàn)代可聽設(shè)備正在融合:TWS耳機(jī)增加了輔助聆聽功能;助聽器增加了連接性和更豐富的用戶體驗(yàn);高端耳機(jī)則向健康和健身領(lǐng)域邁進(jìn)。典型的期望功能包括:用于通話和面對(duì)面降噪的實(shí)時(shí)語音增強(qiáng)、喚醒詞加口語理解加語音ID實(shí)現(xiàn)免提控制和個(gè)性化、反饋消除和自適應(yīng)均衡壓縮及主動(dòng)降噪、生物追蹤與活動(dòng)監(jiān)測、運(yùn)動(dòng)追蹤等。
02 壓縮技術(shù)三重奏:稀疏性、量化和內(nèi)存優(yōu)化
量化技術(shù)通過降低數(shù)據(jù)精度來減少存儲(chǔ)和計(jì)算需求。從32位浮點(diǎn)(float32)轉(zhuǎn)為8位整數(shù)(INT8)權(quán)重可立即減少4倍存儲(chǔ)量,并通過更窄的數(shù)據(jù)路徑節(jié)省能耗。許多音頻模型在使用逐通道縮放時(shí),對(duì)INT8的耐受性強(qiáng),質(zhì)量影響極小。量化感知訓(xùn)練有助于進(jìn)一步縮小量化與浮點(diǎn)性能之間的差距。
稀疏性技術(shù)通過消除不重要的連接來優(yōu)化模型。修剪90%的權(quán)重可使參數(shù)存儲(chǔ)量減少約10倍(這也能降低SRAM漏電),并且當(dāng)硬件實(shí)際跳過零權(quán)重時(shí),修剪層的乘加運(yùn)算(MAC)可減少約10倍。
激活稀疏性利用語音的突發(fā)性特點(diǎn)。即使沒有特殊的激活稀疏性損失函數(shù),在流音頻模型中也常觀察到約50%-70%的稀疏激活(在更安靜的環(huán)境中更高)。當(dāng)硬件能夠動(dòng)態(tài)跳過零時(shí),運(yùn)行時(shí)MAC可減少2-3.33倍。
03 內(nèi)存感知調(diào)度與架構(gòu)優(yōu)化
內(nèi)存感知調(diào)度是另一項(xiàng)關(guān)鍵技術(shù)。通過精簡模型、使用因果時(shí)間卷積網(wǎng)絡(luò)(TCN)或小狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型實(shí)現(xiàn)低延遲流處理、融合操作符以減少SRAM的傳遞次數(shù)、利用激活重用、考慮內(nèi)存層次結(jié)構(gòu)進(jìn)行分塊等方法,可以顯著優(yōu)化內(nèi)存使用效率。
對(duì)于多特征系統(tǒng),共享前端(短時(shí)傅里葉變換/差分對(duì)數(shù)梅爾濾波器組)可以避免特征重復(fù)計(jì)算相同的緩沖區(qū)。這種優(yōu)化策略能夠顯著降低內(nèi)存占用和提高計(jì)算效率。
架構(gòu)設(shè)計(jì)上,需要考慮流式友好和融合操作符。因果卷積、小狀態(tài)RNN單元、對(duì)新興網(wǎng)絡(luò)(如狀態(tài)空間模型(SSMs)和滑動(dòng)窗口注意力)的未來-proof自定義操作符支持、突發(fā)友好的直接內(nèi)存訪問(DMA)和多種電源循環(huán)模式都是關(guān)鍵考慮因素。
04 實(shí)際應(yīng)用與性能提升
壓縮技術(shù)的實(shí)際效果令人印象深刻??紤]一個(gè)實(shí)時(shí)時(shí)間卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(TCRNN)語音增強(qiáng)模型。在密集狀態(tài)下,它有約600萬個(gè)參數(shù),浮點(diǎn)精度下約24兆字節(jié)。使用INT8后,降至約6兆字節(jié)。結(jié)合90%的權(quán)重稀疏性,權(quán)重僅需約600千字節(jié);加上約100千字節(jié)的激活緩沖區(qū)(重用時(shí)總計(jì)約700千字節(jié))。
這一占用空間足夠小,可與其他功能共存。例如,在1兆字節(jié)的SRAM空間中,可預(yù)留約300千字節(jié)用于喚醒詞加SLU路徑(如通過適度稀疏性和INT8將約500千字節(jié)的基線壓縮至約100千字節(jié)),還剩約200千字節(jié)用于語音ID嵌入、聲音事件檢測器、反饋消除器或IMU活動(dòng)分類模型。
稀疏性在功耗和延遲方面也真正發(fā)揮了優(yōu)勢:去噪器以約1.2毫瓦運(yùn)行時(shí)延遲為8毫秒,以約2.1毫瓦運(yùn)行時(shí)延遲為4毫秒。對(duì)于100毫安時(shí)的電池,這為無線電以及其他功能和傳感器留出了充足預(yù)算。
05 硬件創(chuàng)新與專用芯片
專用芯片的出現(xiàn)進(jìn)一步推動(dòng)了TWS耳機(jī)的AI化進(jìn)程。例如,F(xiàn)emtoAI的SPU-001處理器擁有1兆字節(jié)SRAM,在90%稀疏性下等效內(nèi)存為10兆字節(jié)。采用22納米理想節(jié)點(diǎn),面積3.4平方毫米。它支持上述技術(shù),并將稀疏性作為核心特性。
存算一體技術(shù)是另一個(gè)有前景的方向。知存科技自主研發(fā)的存算一體SoC芯片WTM2101已于2022年初正式量產(chǎn),這是國際上量產(chǎn)的首個(gè)存算一體SoC芯片。存算一體基于歐姆定律,矩陣乘法效率提高50-100倍,對(duì)于穿戴設(shè)備來說,提供了能在低功耗下運(yùn)行很大算力的AI算法。
采用存算一體芯片的可穿戴設(shè)備可以提供大算力,傳統(tǒng)芯片的功耗在50mA到100mA之間,但是存算一體可以把功耗降低到1mA。這種技術(shù)特別適合實(shí)時(shí)聲音處理,如聲音增強(qiáng)、通話降噪、聲音美化、人聲增強(qiáng)等AI算法。
06 實(shí)際應(yīng)用案例與市場動(dòng)態(tài)
業(yè)界領(lǐng)先企業(yè)已經(jīng)開始應(yīng)用這些技術(shù)。WISHEE AI耳機(jī)融合了DeepSeek R1深度思考模型,采用多模型協(xié)作機(jī)制,根據(jù)用戶問題的類型和需求,AI Agent會(huì)智能拆分子任務(wù),并匹配最適合的模型進(jìn)行處理。
小米在2025年推出的Xiaomi Buds 5 Pro系列采用了行業(yè)罕見的雙功放三單元聲學(xué)系統(tǒng),結(jié)合11mm內(nèi)外雙磁動(dòng)圈、壓電陶瓷單元和振膜技術(shù),實(shí)現(xiàn)了15-50KHz的超寬頻響應(yīng)。在算法方面,小米團(tuán)隊(duì)與哈曼金耳朵大師合作,采用"哈曼大師"調(diào)音方案,結(jié)合深度學(xué)習(xí)算法,實(shí)現(xiàn)了旗艦級(jí)的空間音頻體驗(yàn)。
2025年9月,立訊精密與美國邊緣人工智能芯片企業(yè)PIMIC達(dá)成戰(zhàn)略合作,雙方將基于PIMIC的邊緣AI芯片技術(shù),共同開發(fā)新一代智能可穿戴產(chǎn)品。這項(xiàng)聯(lián)合技術(shù)將很快應(yīng)用于無線耳機(jī)、AI/AR眼鏡及AIoT設(shè)備等可穿戴產(chǎn)品。
FemtoAI 的 SPU-001 芯片
07 實(shí)施建議與最佳實(shí)踐
實(shí)施AI功能時(shí),門控調(diào)度是一個(gè)實(shí)用模式。始終保持超低功耗監(jiān)聽器(喚醒詞、瞬態(tài)/語音活動(dòng))運(yùn)行,這是最小、最省電的模型(包括前端約200微瓦)。觸發(fā)后,僅在需要時(shí)啟動(dòng)較重的任務(wù)(SLU、上下文更新),然后將其轉(zhuǎn)入SRAM保留模式。
共享功能并統(tǒng)一前端也很重要。去噪器的聲學(xué)特征也可用于環(huán)境分類或語音ID。從每個(gè)應(yīng)用中提取所需的最高分辨率快速傅里葉變換(FFT)(可能是語音增強(qiáng)或聲源分離),并為低復(fù)雜度任務(wù)融合FFT bins,避免重復(fù)計(jì)算前端。
對(duì)于生物和活動(dòng)追蹤,應(yīng)依靠壓縮性好的緊湊時(shí)間模型(TCNs/RNNs);積極下采樣和壓縮時(shí)間窗口。在采樣時(shí)采用占空比(心率和體溫?zé)o需24/7追蹤);當(dāng)出現(xiàn)較大變化或用戶打開配對(duì)的健康/健身應(yīng)用以獲取更高精度時(shí),提高采樣率。
結(jié)語
TWS耳機(jī)的AI化轉(zhuǎn)型正在通過稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù)取得突破性進(jìn)展。這些技術(shù)使多個(gè)小模型能夠?qū)崟r(shí)共存與協(xié)作,在不增大電池或使用更昂貴芯片的情況下實(shí)現(xiàn)豐富功能。隨著專用芯片和存算一體架構(gòu)的發(fā)展,以及業(yè)界對(duì)壓縮技術(shù)的深入理解,TWS耳機(jī)將真正轉(zhuǎn)變?yōu)橹悄芸纱┐饔?jì)算機(jī),為用戶提供更加豐富和便捷的體驗(yàn)。
推薦閱讀:
超越分辨率!解鎖移動(dòng)測繪相機(jī)系統(tǒng)的關(guān)鍵密碼
突破顯示局限!艾邁斯歐司朗光譜傳感技術(shù)讓屏幕自動(dòng)適應(yīng)環(huán)境
偏轉(zhuǎn)線圈技術(shù)解析:從基礎(chǔ)原理到選型要?jiǎng)t的全景指南
Cadence與NVIDIA強(qiáng)強(qiáng)聯(lián)合,數(shù)字孿生平臺(tái)新模型助推AI數(shù)據(jù)中心高效部署