Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi

Učinkovito kodiranje spektralne ovojnice govornog signala (CROSBI ID 331110)

Ocjenski rad | doktorska disertacija

Petrinović, Davor Učinkovito kodiranje spektralne ovojnice govornog signala / Babić, Hrvoje (mentor); Zagreb, Fakultet elektrotehnike i računarstva, . 1999

Podaci o odgovornosti

Petrinović, Davor

Babić, Hrvoje

hrvatski

Učinkovito kodiranje spektralne ovojnice govornog signala

U ovom radu je predložen novi postupak međuokvirnog kodiranja koeficijenata linearnog prediktora koji opisuju spektralnu ovojnicu govornog signala. Postupcima linearne predikcije (LPC) određuju se koeficijenti rekurzivnog digitalnog filtra bez nula, čija se prijenosna funkcija najbolje poklapa s vremenski kratkotrajnom Fourierovom transformacijom odsječka govornog signala, prema kriteriju definiranom Itakura-Saito mjerom izobličenja. Određivanje ovih koeficijenata provodi se na vremenskim odsječcima govornog signala konačnog trajanja, koji se još nazivaju okvirima, a sam postupak analize se provodi u periodičkim razmacima. Nizovi LPC koeficijenata određeni na temelju niza susjednih okvira analize definiraju promjenu spektralne ovojnice. Pod pojmom međuokvirnog kodiranja podrazumijevaju se svi postupci koji iskorištavaju vremensku zavisnost izračunatih koeficijenata u dva ili više susjednih okvira LPC analize. Ta zavisnost je posljedica postepene promjene spektralne ovojnice kroz vrijeme. U usporedbi sa sustavima koji provode nezavisnu kvantizaciju svakog okvira, primjenom postupaka međuokvirnog kodiranja moguće je ostvariti jednako spektralno izobličenje, ali uz manju količinu informacije potrebnu za kodiranje LPC koeficijenata. Novi postupak međuokvirnog kodiranja predložen u ovoj radnji, temeljen je na potpojasnom razlaganju vremenskog niza vektora frekvencija spektralnih linija (LSF). LSF parametri predstavljaju jedan od parametarskih skupova za zapis koeficijenata LPC filtra, a pokazuju posebno dobra svojstva u postupcima međuokvirnog kodiranja. Umjesto da se kvantizacija provodi na individualnim LSF vektorima, vremenski niz LSF vektora se razlaže u više nizova potpojasnih vektora, te se kvantizacija provodi na tim potpojasnim vektorima. Svaki od potpojasnih vektora pokazuje različita statistička i spektralna svojstva, te je moguće za svaki pojas projektirati nezavisne optimalne kvantizatore. U postupku projektiranja kvantizatora, dodjela broja bita pojedinom pojasu određena je značajem kvantizacijske pogreške tog pojasa u konačnom spektralnom izobličenju ovojnice govornog signala. U radnji su diskutirani i uspoređeni postupci uniformnog i neuniformnog razlaganja i pokazano je da se neuniformnim dijadnim razlaganjem postiže najbolja prilagodba spektralnim svojstvima LSF signala. Takvo dijadno razlaganje odgovara postupku vremenski diskretne Wavelet transformacije, pa se stoga predloženi postupak može svrstati i u grupu transformacijskih kodera. Diskutiran je i odabir filtara za razlaganje, te je pokazano da sa stanovišta vremenske lokalizacije kvantizacijske pogreške najbolja svojstva pokazuju biortogonalni filtri zbog svoje linearne fazne karakteristike. Pokazano je da se postupak razlaganja može provesti neuniformnom filtarskom bankom s kritično otipkanim potpojasnim signalima. Ovakva izvedba je izuzetno numerički učinkovita, a za određene tipove biortogonalnih filtara razlaganje se može provesti čak i bez upotrebe množača. Velika pažnja posvećena je analizi algoritamskog kašnjenja sustava međuokvirnog kodiranja, te je razmatrana problematika primjene predložene metode u sustavima za kodiranje govora u stvarnom vremenu. U radnji su diskutirane mjere za aproksimaciju spektralnog izobličenja uzrokovanog kvantizacijom LSF vektora, temeljene na podatkovno zavisnoj, težinskoj euklidskoj udaljenosti između kvantiziranog i originalnog LSF vektora. Teoretski je pokazano da se težine te težinske mjere mogu odrediti iz spektralnih osjetljivosti LSF parametara. Obzirom da su izrazi za određivanje ovih težina vrlo složeni, analiziran je veći broj aproksimativnih težina poznatih iz literature koje su jednostavnije za izračunavanje. Provedena je njihova međusobna usporedba i razmatrana njihova primjena u predloženom postupku međuokvirnog kodiranja u svrhu projektiranja optimalnih kvantizatora, kao i u svrhu same kvantizacije kod vektorskih kvantizatora. Obzirom da se u predloženom međuokvirnom koderu kvantizacija provodi na potpojasnim vektorima, a ne na polaznim LSF vektorima, predložen je i postupak transformacije težinske euklidske mjere u domenu potpojasnih signala. Pokazano je da takav postupak transformacije u aproksimaciji rezultira ponovno euklidskom udaljenošću između kvantiziranih i nekvantiziranih potpojasnih vektora, ali s transformiranim težinama. Predložen je postupak transformacije ulaznih težina korištenjem težinskih filtara, što omogućava vektorsku kvantizaciju potpojasnih vektora primjenom težinske euklidske mjere izobličenja. U radu je diskutirana i primjena unutarokvirnih transformacija LSF vektora kojima se povećava učinkovitost kodiranja za slučaj skalarne kvantizacije potpojasnih vektora, te je pokazano kako se ti postupci uklapaju u strukturu potpojasnog međuokvirnog kodera. Provedena je i analiza postupaka izračunavanja LSF parametara iz koeficijenata LPC filtra. Ti su postupci uspoređeni s aspekta točnosti i numeričke učinkovitosti, a posebna pažnja je posvećena problematici izvedbe na cjelobrojnim procesorima s konačnom dužinom riječi. Predložen je i analitički postupak izračunavanja LSF parametara za prediktore čiji je red niži od devetog.

kodiranje govora; analiza postupkom linearne predikcije; frekvencije spektralnih linija; međuokvirno kodiranje; potpojasno razlaganje; Wavelet transformacija; mjere spektralnog izobličenja; optimalna skalarna kvantizacija; vektorska kvantizacija

nije evidentirano

engleski

Efficient coding of the speech spectral envelope

nije evidentirano

speech coding; linear prediction analysis; line spectrum frequencies; interframe coding; sub-band decomposition; Wavelet transformation; spectral distortion measures; optimal scalar quantization; vector quantization

nije evidentirano

Podaci o izdanju

208 i 52 str. pr

14.07.1999.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Fakultet elektrotehnike i računarstva

Zagreb

Povezanost rada

Elektrotehnika