人聲編碼器
人聲編碼器(voice encoder編碼器編碼器),簡(jiǎn)稱(chēng)聲碼器,也稱(chēng)語(yǔ)音信號(hào)分析與合成系統(tǒng),是一種分析和合成聲音的系統(tǒng),主要用于合成人的語(yǔ)音。這種編碼器的主要概念是在傳輸聲音之前對(duì)聲音進(jìn)行編碼,允許更多的語(yǔ)音信道共享同一個(gè)無(wú)線(xiàn)電電路或海底電纜。語(yǔ)音編碼器可以通過(guò)硬件或軟件實(shí)現(xiàn)。
概況簡(jiǎn)介 編輯本段
說(shuō)話(huà)是人類(lèi)最直接的方式、最有效的信息交流方式。在通信技術(shù)的發(fā)展中,語(yǔ)音通話(huà)一直是大多數(shù)通信系統(tǒng)的基本功能。信息傳遞的內(nèi)容開(kāi)始向多元化方向發(fā)展,圖像、視頻等非語(yǔ)音信息在通信中的比重逐漸增加,但語(yǔ)音通話(huà)便宜、便利仍然是最廣泛使用的通信方式,因此有效地傳輸語(yǔ)音信息仍然是許多通信系統(tǒng)的基本功能之一。在數(shù)字通信系統(tǒng)中,原始語(yǔ)音信號(hào)在傳輸前必須進(jìn)行數(shù)字化處理,但數(shù)字化后的語(yǔ)音信號(hào)有很多冗余。對(duì)語(yǔ)音信號(hào)進(jìn)行編碼可以有效地去除數(shù)字語(yǔ)音信號(hào)中的冗余信息,降低編碼速率,因此語(yǔ)音編碼技術(shù)在現(xiàn)代通信系統(tǒng)中得到了廣泛的應(yīng)用。
聲音編碼器或聲碼器語(yǔ)音信號(hào)編碼器和解碼器。使用語(yǔ)音信號(hào)模型進(jìn)行語(yǔ)音分析和合成的系統(tǒng)。傳播時(shí)只使用模型參數(shù),編解碼時(shí)使用模型參數(shù)估計(jì)和語(yǔ)音合成技術(shù)。在其語(yǔ)音模型中,語(yǔ)音被視為快速變化的激勵(lì)信號(hào)的輸出,該信號(hào)被發(fā)送到緩慢變化的信道濾波器。當(dāng)有聲時(shí),激勵(lì)信號(hào)是噪聲,當(dāng)有聲時(shí),激勵(lì)信號(hào)是具有音調(diào)周期的脈沖序列。語(yǔ)音模型中的語(yǔ)音信號(hào)由兩組參數(shù)表示。一組是激勵(lì)源參數(shù),包括濁音和清音指示、基音頻率和振幅;另一組是信道濾波器的響應(yīng)參數(shù),參數(shù)不同,聲碼器的類(lèi)型也不同。傳輸?shù)氖钦Z(yǔ)音信號(hào)中沒(méi)有冗余的模型參數(shù)。壓縮比大,但是丟失了語(yǔ)音的一些細(xì)節(jié),對(duì)語(yǔ)音信號(hào)的自然度影響很大。開(kāi)發(fā)的聲碼器包括通道聲碼器、共振峰聲碼器、同態(tài)聲碼器、線(xiàn)性預(yù)測(cè)聲碼器和音素聲碼器。聲碼器早期用于軍事通信,雖然壓縮比大,但重建語(yǔ)音質(zhì)量差。線(xiàn)性預(yù)測(cè)聲碼器可以滿(mǎn)足電話(huà)通信對(duì)語(yǔ)音質(zhì)量的要求,并應(yīng)用于移動(dòng)通信中、語(yǔ)音存儲(chǔ)和轉(zhuǎn)發(fā)可視電話(huà)等領(lǐng)域有著廣闊的應(yīng)用前景。
聲碼器的明顯優(yōu)勢(shì)是碼率低,所以適用于窄帶、貴劣信道條件下的數(shù)字電話(huà)通信可以滿(mǎn)足節(jié)約頻帶的要求、省電和抗干擾編碼的要求。低數(shù)字速率也有利于語(yǔ)音存儲(chǔ)和語(yǔ)音加密。聲碼器的缺點(diǎn)是音質(zhì)不如普通數(shù)字電話(huà),工作過(guò)程復(fù)雜,成本高。現(xiàn)代聲碼器主要用于軍隊(duì)、政府和那些值得付出代價(jià)來(lái)?yè)Q取通信安全的人(保密)的場(chǎng)合。隨著對(duì)人類(lèi)發(fā)聲機(jī)制和聽(tīng)覺(jué)機(jī)制的深入研究,以及計(jì)算機(jī)技術(shù)和大規(guī)模集成電路的發(fā)展,聲碼器的音質(zhì)和小型化將不斷提高,并將在數(shù)字通信中得到更廣泛的應(yīng)用。
聲碼器非常有利于語(yǔ)音存儲(chǔ)和語(yǔ)音加密、有算法,速度快、質(zhì)量好,結(jié)構(gòu)簡(jiǎn)單、適合于窄帶、昂貴和劣質(zhì)信道條件下的數(shù)字電話(huà)通信。但是工作過(guò)程復(fù)雜,價(jià)格高,音質(zhì)有點(diǎn)差。
編碼理論 編輯本段
人說(shuō)話(huà)時(shí),人的聲音是由喉頭的聲帶開(kāi)合聲門(mén)產(chǎn)生的,其中包含許多周期性的波形和許多諧波這些周期波可視為基本聲源信號(hào)。這些聲源信號(hào)然后通過(guò)鼻子和喉嚨(可以認(rèn)為是一個(gè)復(fù)雜的共振系統(tǒng))通過(guò)改變口型來(lái)改變系統(tǒng),產(chǎn)生不同的和聲內(nèi)容,創(chuàng)造出各種聲音;此外,氣流通過(guò)不同的口型會(huì)產(chǎn)生濁音和哽咽聲。聲碼器發(fā)送端的分析器分析語(yǔ)音信號(hào),并將信號(hào)分成多個(gè)頻帶(數(shù)字越大,分析就越準(zhǔn)確)輸入信號(hào)經(jīng)過(guò)多頻帶濾波器,每個(gè)頻帶分別經(jīng)過(guò)包絡(luò)檢波器,包絡(luò)檢波器得到的控制信號(hào)輸出到解碼器。由于控制信號(hào)的變化速度比原始語(yǔ)音波形慢得多,聲碼器大大減少了語(yǔ)音傳輸所需的頻帶。如果對(duì)控制信號(hào)進(jìn)行加密,可以保證語(yǔ)音傳輸?shù)陌踩?,防止被截獲。與原來(lái)的語(yǔ)音數(shù)據(jù)相比,傳輸數(shù)據(jù)可以壓縮到原來(lái)的十分之一左右。語(yǔ)音信號(hào)的重建將顛倒這些步驟;接收機(jī)接收到各個(gè)頻帶的包絡(luò)參數(shù)后,分別得到各個(gè)頻帶的包絡(luò),可以看作多個(gè)時(shí)變?yōu)V波器。接著由一個(gè)新的“豐富頻率成分”的聲源信號(hào)(可視為噪音訊號(hào)),通過(guò)每個(gè)頻帶的濾波器得到每個(gè)頻帶的包絡(luò)信號(hào),最后將這些信號(hào)相加得到恢復(fù)的語(yǔ)音信號(hào)。值得注意的是,通過(guò)上述編碼方法,原始信號(hào)的很多信息都被丟棄了,主要是信息頻譜的瞬時(shí)頻率,也就是頻譜的相位。雖然這種信息的丟失保留了語(yǔ)音的可懂度,但相位的丟失意味著音高的丟失,就像漢語(yǔ)一樣“平、上、去、入”等五次,信息會(huì)丟失,聽(tīng)起來(lái)像機(jī)器人在說(shuō)話(huà),不會(huì)“抑揚(yáng)頓挫”這種“機(jī)器人式”其特殊的音色流行于流行音樂(lè)和音響娛樂(lè)中,廣泛應(yīng)用于電子音樂(lè)中。
類(lèi)型種類(lèi) 編輯本段
1939年以后,已經(jīng)制造的聲碼器主要包括:通道聲碼器、共振峰聲碼器、同態(tài)聲碼器、線(xiàn)性預(yù)測(cè)聲碼器和音素聲碼器。
通道聲碼器:在該聲碼器中,由14~20個(gè)帶通濾波器組成的濾波器組對(duì)輸入語(yǔ)音信號(hào)的幅度譜進(jìn)行分析濾波器組將頻率范圍劃分為許多相鄰的頻帶或通道,每個(gè)濾波器的輸出是一個(gè)包絡(luò)緩慢變化的信號(hào)包絡(luò)的大小反映了該頻帶中信號(hào)的功率。因此,每個(gè)帶通濾波器輸出的包絡(luò)可以近似表示語(yǔ)音信號(hào)的幅度譜。另一方面,音調(diào)檢測(cè)和清音鑒別器提供音調(diào)周期和清音指示。在解碼端,有與編碼端相同的濾波器組。濁音指示用于選擇濾波器組的激勵(lì)源,濁音時(shí)使用脈沖串,濁音時(shí)使用噪聲。脈沖串的頻率由基音控制,譜包絡(luò)信息用于控制各個(gè)濾波器的輸出,最終可以合成接近原始譜包絡(luò)的語(yǔ)音信號(hào)。信道聲碼器的語(yǔ)音質(zhì)量,即使在2.4kbit/Srate還能做到高清,抗背景噪聲能力強(qiáng),穩(wěn)定性好,因此得到廣泛應(yīng)用,多年來(lái)興趣不減。
共振峰聲碼器:它是信道聲碼器的變體,對(duì)共振峰頻率和帶寬進(jìn)行編碼。根據(jù)聽(tīng)力測(cè)試的結(jié)論,一般只需要傳輸3~4個(gè)共振峰,所以數(shù)據(jù)率可以很低。當(dāng)共振峰提取正確時(shí),共振峰聲碼器在語(yǔ)音質(zhì)量上可以超過(guò)信道聲碼器,而速度只有后者的一半。只是因?yàn)檎_跟蹤共振峰頻率相當(dāng)困難,阻礙了這種聲碼器的實(shí)用化,但對(duì)它的研究一直在進(jìn)行。
同態(tài)聲碼器:又稱(chēng)為倒譜聲碼器,它傳遞的模型參數(shù)是語(yǔ)音的倒譜和語(yǔ)音的幅度譜,可以反映信道響應(yīng)但理論上,倒譜可以使語(yǔ)音模型中的激勵(lì)源和信道響應(yīng)參數(shù)得到理想的分離雖然在理論上是一種方法,但同態(tài)聲碼器在實(shí)際實(shí)現(xiàn)中需要大量的計(jì)算,在相同語(yǔ)音質(zhì)量下數(shù)據(jù)率高于信道聲碼器,抗語(yǔ)音背景噪聲能力差,所以只能得到有限的結(jié)果。
線(xiàn)性預(yù)測(cè)聲碼器:它是應(yīng)用最廣泛的聲碼器。它的主要特點(diǎn)是使用線(xiàn)性預(yù)測(cè)來(lái)模擬信道的響應(yīng)。除了激勵(lì)參數(shù),聲碼器傳輸?shù)膮?shù)是線(xiàn)性預(yù)測(cè)系數(shù)。典型的線(xiàn)性預(yù)測(cè)系數(shù)代表聲道的沖激響應(yīng),但語(yǔ)音質(zhì)量對(duì)這些系數(shù)的量化非常敏感,每個(gè)參數(shù)需要的比特?cái)?shù)較多,所以在實(shí)際中經(jīng)常使用各種等效參數(shù),如反射系數(shù)線(xiàn)譜等效等,這些等效參數(shù)需要的量化比特?cái)?shù)較少,對(duì)比特?cái)?shù)不敏感。線(xiàn)性預(yù)測(cè)聲碼器的激勵(lì)模型得到了改進(jìn),如濁音聲門(mén)波激勵(lì)模型或多脈沖激勵(lì)模型。經(jīng)過(guò)這些改進(jìn),線(xiàn)性預(yù)測(cè)聲碼器的語(yǔ)音質(zhì)量處于聲碼器的前列。
音素聲碼器:最低速率聲碼器主要由音素識(shí)別器和音素合成器組成。但實(shí)際使用的語(yǔ)音單位一般不是音位,而是復(fù)合音位等更大的語(yǔ)音單位,因?yàn)椴豢紤]上下文而連接的音位串是無(wú)法理解的。這個(gè)聲碼器的語(yǔ)音質(zhì)量已經(jīng)基本失去了自然度,聲碼器要求的數(shù)據(jù)速率可以是200bit/s以下。
在聲碼器的歷史上也出現(xiàn)過(guò)相關(guān)的聲碼器、相位聲碼器和f.Motzer等提出的Motzer聲碼器。其中,相位聲碼器雖然在一般文獻(xiàn)中被歸為聲碼器,但實(shí)際上屬于次待機(jī)編碼。它和相關(guān)的聲碼器都沒(méi)有在實(shí)踐中應(yīng)用,只有Motzer聲碼器被應(yīng)用。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問(wèn)題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢(xún)相關(guān)領(lǐng)域?qū)I(yè)人士。