2024年6月13日,第89次AVS工作組會(huì)議在紹興召開(kāi)。AVS音頻組經(jīng)過(guò)討論,正式宣布,《信息技術(shù) 智能媒體編碼 第 10 部分:實(shí)時(shí)語(yǔ)音》(以下簡(jiǎn)稱(chēng)AVS3-P10) 已經(jīng)完成FCD(Final Committee Draft)階段,即將正式對(duì)外發(fā)布。AVS3-P10是全球首個(gè)系統(tǒng)性引入人工智能并實(shí)現(xiàn)真正意義上的低碼率下高質(zhì)量語(yǔ)音編碼標(biāo)準(zhǔn),為全球語(yǔ)音技術(shù)的發(fā)展帶來(lái)革命性的突破。
實(shí)時(shí)語(yǔ)音通信技術(shù)(RTC: Real-time Communication)已廣泛應(yīng)用于在線會(huì)議、協(xié)同辦公、互動(dòng)娛樂(lè)、社交等領(lǐng)域,上述多樣豐富的應(yīng)用場(chǎng)景給實(shí)時(shí)語(yǔ)音通信技術(shù)提出了多種技術(shù)挑戰(zhàn),其中,高質(zhì)量、低延時(shí)、低帶寬、高抗性的語(yǔ)音編碼是非常重要的一環(huán)。傳統(tǒng)的語(yǔ)音編碼器,包括AVS、ITU-T等標(biāo)準(zhǔn)語(yǔ)音編碼器,在16-20kbps左右碼率時(shí),能夠恢復(fù)出高質(zhì)量寬帶語(yǔ)音;在30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語(yǔ)音。然而,當(dāng)碼率進(jìn)一步降低(如:降到10kbps以下時(shí)),傳統(tǒng)語(yǔ)音編碼器恢復(fù)的質(zhì)量下降明顯,影響用戶(hù)體驗(yàn)。
基于上述應(yīng)用訴求,在2023年3月第84次AVS會(huì)議上,由騰訊提議在AVS音頻組啟動(dòng)面向?qū)崟r(shí)語(yǔ)音通信場(chǎng)景的低碼率高質(zhì)量語(yǔ)音編碼項(xiàng)目。經(jīng)過(guò)需求分析,在第85次AVS工作組會(huì)議上,決定立項(xiàng)AV3-P10實(shí)時(shí)語(yǔ)音編碼項(xiàng)目,并通過(guò)AVS音頻組發(fā)出技術(shù)征集書(shū)。AVS3-P10實(shí)時(shí)語(yǔ)音編碼項(xiàng)目由來(lái)自騰訊會(huì)議天籟實(shí)驗(yàn)室的肖瑋負(fù)責(zé)推進(jìn)和維護(hù)。
2023年12月第 87 次 AVS 會(huì)議上,AVS3-P10 WD 1.0通過(guò)全體會(huì)議審議;騰訊會(huì)議天籟實(shí)驗(yàn)室提交的技術(shù)方案,被選擇為AVS3-P10實(shí)時(shí)語(yǔ)音編碼的RM0基線。
2024年3月第88次AVS會(huì)議上,音頻組組長(zhǎng)清華大學(xué)竇維蓓教授宣布了《信息技術(shù) 智能媒體編碼 第10部分:實(shí)時(shí)語(yǔ)音》已經(jīng)完全滿足技術(shù)需求,主客觀測(cè)試驗(yàn)證表明其性能在多個(gè)對(duì)比項(xiàng)中表現(xiàn)最優(yōu),標(biāo)準(zhǔn)制定工作由工作組草案(WD)階段進(jìn)入委員會(huì)草案(CD)階段。
AVS3-P10標(biāo)準(zhǔn)制定過(guò)程中,采用按照ITU-T P.800 DCR主觀質(zhì)量評(píng)價(jià)規(guī)范,并由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院和華為分別進(jìn)行了主觀測(cè)試和交叉驗(yàn)證。
主觀測(cè)試結(jié)果表明,在單聲道編碼場(chǎng)景,AVS3-P10在寬帶和超寬帶等多個(gè)主要測(cè)試場(chǎng)景均達(dá)到了4.0以上MOS分,體現(xiàn)出明顯優(yōu)勢(shì),最低碼率可達(dá)5.9kbps。AVS3-P10采納了深度神經(jīng)網(wǎng)絡(luò)技術(shù),自帶的丟包損傷能力,有效提升了編碼器在網(wǎng)絡(luò)不佳時(shí)的質(zhì)量。
在立體聲編碼場(chǎng)景,AVS3-P10集成了在AVS音頻歷代標(biāo)準(zhǔn)中采用的基于極大相關(guān)旋轉(zhuǎn)(MCR:Maximum Correlation Rotation)的參數(shù)立體聲編碼技術(shù)。經(jīng)過(guò)測(cè)試,碼率低至7.6kbps時(shí)也可實(shí)現(xiàn)高質(zhì)量雙聲道立體聲編碼效果,主觀質(zhì)量均達(dá)到4.0以上MOS分。在低于17kbps的測(cè)試碼率條件下,AVS3P10的CD1.0實(shí)現(xiàn)了雙聲道立體聲主觀質(zhì)量均超過(guò)對(duì)比系統(tǒng)。
在ITU-T P.863客觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)中,AVS3-P10 RM0也體現(xiàn)出了顯著優(yōu)勢(shì)。第一,在所有8個(gè)測(cè)試碼率中,AVS3-P10 RM0均超過(guò)4.0MOS,最高在4.45MOS。在AI Codec領(lǐng)域,AVS3-P10 RM0在相近碼率下,質(zhì)量?jī)?yōu)勢(shì)在0.6MOS以上。上述測(cè)試結(jié)論均反映出,AVS3-P10 RM0代表了目前AI Codec的最高水平。
上述測(cè)試結(jié)果表明,AVS3-P10質(zhì)量,可以對(duì)齊OPUS和EVS等傳統(tǒng)信號(hào)處理編碼器在中高碼率的表現(xiàn),達(dá)到運(yùn)營(yíng)級(jí)質(zhì)量。AVS3-P10技術(shù)水平、語(yǔ)音質(zhì)量達(dá)到國(guó)際一流水準(zhǔn),為全球語(yǔ)音通信技術(shù)樹(shù)立了新的標(biāo)桿。
AVS3-P10實(shí)時(shí)語(yǔ)音標(biāo)準(zhǔn)FCD的完成,具備了提交AVS工作組進(jìn)行最終審批的條件。該標(biāo)準(zhǔn)離不開(kāi)AVS音頻組成員單位的共同努力和貢獻(xiàn)。AVS3-P10 實(shí)時(shí)語(yǔ)音編碼,作為新一代的語(yǔ)音編解碼技術(shù)標(biāo)準(zhǔn),是對(duì)AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。