DE19730129A1 - Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals - Google Patents
Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines AudiosignalsInfo
- Publication number
- DE19730129A1 DE19730129A1 DE19730129A DE19730129A DE19730129A1 DE 19730129 A1 DE19730129 A1 DE 19730129A1 DE 19730129 A DE19730129 A DE 19730129A DE 19730129 A DE19730129 A DE 19730129A DE 19730129 A1 DE19730129 A1 DE 19730129A1
- Authority
- DE
- Germany
- Prior art keywords
- group
- spectral values
- noisy
- noise
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Description
Die vorliegende Erfindung bezieht sich auf Audiocodierver
fahren und insbesondere auf Audiocodierverfahren nach dem
Standard ISO/MPEG, wie z. B. MPEG-1, MPEG-2, MPEG-2 AAC, zur
datenreduzierten Darstellung von hochqualitativen Audio
signalen.
Der Standardisierungskörper ISO/IEC JTC1/SC29/WG11, der auch
als die Moving Pictures Expert Group (MPEG) bekannt ist,
wurde 1988 gegründet, um digitale Video- und Audiocodier
ungsschemen für niedrige Datenraten zu spezifizieren. Im
November 1992 wurde die erste Spezifikationsphase durch den
Standard MPEG-1 vollendet. Das Audiocodiersystem nach
MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in
einem Einkanal- oder Zweikanalstereo-Modus bei Abtastfre
quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-1
Layer II liefert Rundfunkqualität, wie sie durch die Inter
national Telecommunication Union spezifiziert ist, bei einer
Datenrate von 128 kb/s pro Kanal.
In seiner zweiten Entwicklungsphase bestanden die Ziele von
MPEG darin, eine Mehrkanalerweiterung für MPEG-1-Audio zu
definieren, die zur existierenden MPEG-1-Systemen rückwärts
kompatibel sein sollte, und ebenfalls einen Audiocodier
standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz,
24 kHz) als bei MPEG-1 zu definieren. Der rückwärtskompa
tible Standard (MPEG-2 BC) sowie der Standard mit niedri
geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994
vollendet. MPEG-2 BC liefert eine gute Audioqualität bei
Datenraten von 640-896 kb/s für 5 Kanäle mit voller Band
breite. Seit 1994 besteht eine weitere Anstrengung des
MPEG-2-Audiostandardisierungskommittees darin, einen Multi
kanalstandard mit höherer Qualität zu definieren, als sie
erreichbar ist, wenn eine Rückwärtskompatibilität zur MPEG-1
gefordert wird. Dieser nicht-rückwärtskompatible Audio
standard gemäß MPEG-2 wird als MPEG-2 NBC bezeichnet. Das
Ziel dieser Entwicklung besteht darin, Rundfunkqualitäten
gemäß den ITU-R-Anforderungen bei Datenraten von 384 kb/s
oder darunter für 5-kanalige Audiosignale, bei denen jeder
Kanal die volle Bandbreite hat, zu erreichen. Der Audio
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das
Schema MPEG-2 NBC wird den Kern für den bereits geplanten
Audiostandard MPEG-4 bilden, welcher höhere Datenraten haben
wird (über 40 kb/s pro Kanal). Der NBC oder nicht rückwärts
kompatible Standard kombiniert den Codierwirkungsgrad einer
hochauflösenden Filterbank, von Prädiktionstechniken und der
redundanzreduzierenden Huffman-Codierung, um eine Audioco
dierung mit Rundfunkqualität bei sehr niedrigen Datenraten
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine
detaillierte Darstellung des technischen Inhalts von MPEG-2
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush,
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G.
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio
Coding", 101st AES Convention, Los Angeles 1996, Preprint
4382.
Effiziente Audiocodierverfahren entfernen sowohl Redundanzen
als auch Irrelevanzen von Audiosignalen. Korrelationen
zwischen Audioabtastwerten und Statistiken der Abtastwert
darstellung werden ausgenutzt, um Redundanzen zu entfernen.
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaften
des menschlichen Gehörsystems werden ausgenutzt, um nicht
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der
Frequenzgehalt des Audiosignals wird mittels einer Filter
bank in Teilbänder unterteilt. Die Datenratenreduktion wird
erreicht, indem das Spektrum des Zeitsignals gemäß psycho
akustischen Modellen quantisiert wird, und dieselbe kann ein
verlustloses Codierverfahren umfassen.
Allgemein gesagt wird ein zeitkontinuierliches Audiosignal
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten.
Das zeitdiskrete Audiosignal wird mittels einer Fenster
funktion gefenstert, um aufeinanderfolgende Blöcke oder
Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird
jeder Block von gefensterten zeitdiskreten Abtastwerten des
Audiosignals in den Frequenzbereich transformiert, wobei
beispielsweise eine modifizierte diskrete Cosinustransfor
mation (MDCT) verwendet werden kann. Die somit erhaltenen
Spektralwerte sind noch nicht quantisiert und müssen demnach
quantisiert werden. Das Hauptziel dabei besteht darin, die
Spektraldaten derart zu quantisieren, daß das Quantisie
rungsrauschen durch die quantisierten Signale selbst mas
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard
beschriebenes psychoakustisches Modell herangezogen, das
unter Berücksichtigung der speziellen Eigenschaften des
menschlichen Gehörs abhängig von dem vorliegenden Audiosi
gnal Maskierungsschwellen berechnet. Die Spektralwerte wer
den nun derart quantisiert, daß das eingeführte Quantisie
rungsrauschen versteckt und somit unhörbar wird. Das Quan
tisieren führt also zu keinem hörbaren Rauschen.
In dem NBC-Standard wird ein sog. ungleichförmiger Quanti
sierer verwendet. Zusätzlich wird ein Verfahren verwendet,
um das Quantisierungsrauschen zu formen. Das NBC-Verfahren
verwendet wie auch vorhergehende Standards die einzelne
Verstärkung von Gruppen von Spektralkoeffizienten, welche
als Skalenfaktorbänder bekannt sind. Um so effizient wie
möglich zu arbeiten, ist es wünschenswert, in der Lage zu
sein, das Quantisierungsrauschen in Einheiten zu formen, die
an die Frequenzgruppen des menschlichen Gehörsystems mög
lichst angelehnt sind. Es ist somit möglich, Spektralwerte
zu gruppieren, welche die Bandbreite der Frequenzgruppen
sehr eng wiedergeben. Einzelne Skalenfaktorbänder können
mittels Skalenfaktoren in Stufen von 1,5 dB verstärkt
werden. Die Rauschformung wird erreicht, da verstärkte
Koeffizienten größere Amplituden haben. Daher werden sie im
allgemeinen ein höheres Signal/Rausch-Verhältnis nach der
Quantisierung zeigen. Andererseits benötigen größere
Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung
zwischen den Skalenfaktorbändern wird implizit verändert.
Selbstverständlich muß die Verstärkung durch die Skalenfak
toren im Decodierer korrigiert werden. Aus diesem Grund müs
sen die Verstärkungsinformationen, die in den Skalenfaktoren
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei
teninformationen zu dem Decodierer übertragen werden.
Nach der Quantisierung der in Skalenfaktorbändern vorliegen
den ggf. durch Skalenfaktoren verstärkten Spektralwerte sol
len dieselben codiert werden. Das Eingangssignal in ein
rauschloses Codiermodul ist somit der Satz von beispiels
weise 1024 quantisierten Spektralkoeffizienten. Durch das
rauschlose Codiermodul werden die Sätze von 1024 quanti
sierten Spektralkoeffizienten in Abschnitten oder "Sections"
eingeteilt, derart, daß eine einzige Huffman-Codiertabelle
("Codebook") verwendet wird, um jeden Abschnitt zu codieren.
Aus Codiereffizienzgründen können Abschnittsgrenzen nur an
Skalenfaktorbandgrenzen vorhanden sein, derart, daß für
jeden Abschnitt oder "Section" des Spektrums sowohl die
Länge des Abschnitts in Skalenfaktorbändern als auch die
Huffman-Codiertabellennummer, die für den Abschnitt ver
wendet wird, als Seiteninformationen übertragen werden
müssen.
Das Bilden der Abschnitte ist dynamisch und variiert typi
scherweise von Block zu Block, derart, daß die Anzahl von
Bits, die benötigt werden, um den vollen Satz von quanti
sierten Spektralkoeffizienten darzustellen, minimiert wird.
Die Huffman-Codierung wird verwendet, um n-Tupel von quan
tisierten Koeffizienten darzustellen, wobei der Huffman-Code
von einem von 12 Codiertabellen abgeleitet wird. Der maxi
male absolute Wert der quantisierten Koeffizienten, der von
jeder Huffman-Codiertabelle dargestellt werden kann, und die
Anzahl von Koeffizienten in jedem n-Tupel für jede Codierta
belle sind a priori festgelegt.
Der Sinn des Bildens der Abschnitte oder Sections besteht
also darin, Bereiche mit gleicher Signalstatistik zu grup
pieren, um mittels einer einzigen Huffman-Codiertabelle für
eine Section einen möglichst hohen Codiergewinn zu errei
chen, wobei der Codiergewinn allgemein durch den Quotienten
aus Bits vor der Codierung und Bits nach der Codierung de
finiert ist. Mittels einer Codiertabellennummer ("Codebook
number"), die in der für das NBC-Verfahren verwendeten Bit
stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co
diertabellen verwiesen, welche für einen speziellen Ab
schnitt den höchsten Codiergewinn ermöglicht. Der Ausdruck
"Codiertabellennummer", soll in dieser Anmeldung somit den
Platz in der Bitstromsyntax bezeichnen, der für die Codier
tabellennummer reserviert ist. Um 11 verschiedene Codierta
bellennummern binär zu codieren, werden 4 Bit benötigt. Die
se 4 Bit müssen für jeden Abschnitt, d. h. für jede Gruppe
von Spektralwerten, als Seiteninformationen übertragen wer
den, damit der Decodierer zum Decodieren die entsprechende
korrekte Codiertabelle auswählen kann.
Eine weitere Technik, die neuerdings Beachtung findet, ist
die "Rauschsubstitution", deren Aspekte ausführlich in Do
nald Schulz "Improving Audio Codecs by Noise Substitution",
Journal of the Audio Eng. Soc., Bd. 44, Nr. 7/8, S.
593-598, Juli/August 1996, beschrieben sind. Wie bereits erwähnt
wurde, verwenden herkömmliche Audiocodieralgorithmen übli
cherweise Maskierungseffekte des menschlichen Ohrs, um die
Datenrate oder die Anzahl von zu übertragenden Bits ent
scheidend zu reduzieren. Maskierung bedeutet also, daß eine
oder mehrere Frequenzkomponenten als Spektralwerte andere
Komponenten mit niedrigeren Pegeln unhörbar machen. Dieser
Effekt kann auf zwei Arten und Weisen ausgenutzt werden.
Zuerst müssen Audiosignalkomponenten, die durch andere
Komponenten maskiert werden, nicht codiert werden. Zweitens
ist das Einführen von Rauschen durch die eben beschriebene
Quantisierung erlaubt, wenn dieses Rauschen durch Kompo
nenten des ursprünglichen Signals verdeckt wird.
Bei rauschhaften Signalen ist das menschliche Gehörsystem
nicht in der Lage, den exakten Zeitverlauf eines solchen
Signals zu erfassen. Bei üblichen Algorithmen führte dies
dazu, daß sogar die Wellenform des weißen Rauschens, welche
für das menschliche Gehör nahezu irrelevant ist, codiert
wurde. Ein gehörrichtiges Codieren von rauschhaltigen
Signalen erfordert daher hohe Bitraten für Informationen,
die nicht hörbar sind, wenn keine speziellen Vorkehrungen
getroffen werden. Falls jedoch rauschhaltige Komponenten von
Signalen erfaßt und mit Informationen über ihre Rauschpegel,
über ihren Frequenzbereich oder über ihren zeitlichen Aus
dehnungsbereich codiert werden, kann eine solche überflüssi
ge Codierung verringert werden, was zu außerordentlich
großen Biteinsparungen führen kann. Diese Tatsache wird
durch die Psychoakustik untermauert, die besagt, daß der
Wahrnehmungseindruck von Rauschsignalen primär von deren
spektraler Zusammensetzung und nicht von der tatsächlichen
Wellenform bestimmt wird. Dies ermöglicht also die Benutzung
der Rauschsubstitutionstechnik bei der Datenreduktion von
Audiosignalen.
Der Codierer steht daher vor der Aufgabe, in dem gesamten
Spektrum des Audiosignals rauschartige oder rauschhafte
Spektralwerte zu finden bzw. zu erkennen. Eine Definition
für rauschhafte Spektralwerte lautet wie folgt: Wenn eine
Signalkomponente durch ihren Pegel, durch ihren Frequenzbe
reich und durch ihren zeitlichen Ausdehnungsbereich derart
charakterisiert werden kann, daß sie ohne hörbare Unter
schiede für das menschliche Gehörsystem durch ein Rauscher
setzungsverfahren rekonstruiert werden kann, wird diese
Signalkomponente als Rauschen klassifiziert. Die Erfassung
dieser Charakteristik kann entweder im Frequenzbereich oder
im Zeitbereich durchgeführt werden, wie es in der zuletzt
zitierten Veröffentlichung dargestellt ist. Das einfachste
Verfahren besteht beispielsweise darin, tonale, d. h. nicht
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre
quenz-Transformation verwendet wird, und indem stationäre
Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt
werden. Diese Spitzen werden als tonal bezeichnet, alles
andere wird als rauschhaft bezeichnet. Dies stellt jedoch
eine relativ grobe Rauscherfassung dar. Eine weitere Mög
lichkeit, zwischen rauschhaften und tonalen Spektralkom
ponenten zu unterscheiden, besteht in der Verwendung eines
Prädiktors für Spektralwerte in aufeinanderfolgenden
Blöcken. Dabei wird eine Prädiktion von einem Spektrum zu
dem folgenden Spektrum, d. h. dem Spektrum, das dem nächsten
zeitlichen Block oder Frame zugeordnet ist, durchgeführt.
Unterscheidet sich ein prädizierter Spektralwert von einem
tatsächlich durch Transformation ermittelten Spektralwert
des nächsten zeitlichen Blocks oder Frames nicht oder nur
wenig, so wird davon ausgegangen, daß es sich bei diesem
Spektralwert um eine tonale Spektralkomponente handelt.
Daraus kann ein Tonalitätsmaß µ abgeleitet werden, dessen Wert
einer Entscheidung zugrundeliegt, um tonale und rauschhafte
Spektralwerte voneinander zu unterscheiden. Dieses Erfas
sungsverfahren ist jedoch lediglich für streng stationäre
Signale geeignet. Es versagt dabei, Situationen zu erfassen,
bei denen Sinussignale mit gering veränderten Frequenzen
über der Zeit vorhanden sind. Solche Signale erscheinen oft
in Audiosignalen, wie z. B. Vibratos, und es ist für den
Fachmann offensichtlich, daß diese nicht durch eine rausch
hafte Komponente ersetzt werden können.
Eine weitere Möglichkeit zur Erfassung von rauschhaften
Signalen besteht in der Rauscherfassung durch Prädiktion im
Zeitbereich. Hierfür eignet sich ein angepaßtes Filter als
Prädiktor, welcher wiederholt angewendet werden kann, um
eine lineare Prädiktion durchzuführen, wie es in der Technik
hinreichend bekannt ist. Vergangene Audiosignale werden ein
gespeist und das Ausgangssignal wird mit dem tatsächlichen
Audioabtastwert verglichen. Im Fall eines kleinen Prädikti
onsfehlers kann Tonalität angenommen werden. Um den Charak
ter unterschiedlicher Frequenzregionen zu bestimmen, d. h.
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek
tralwerten eine rauschhafte Gruppe ist, müssen Zeit-Fre
quenz-Transformationen sowohl des ursprünglichen als auch
des prädizierten Signals durchgeführt werden. Dann kann für
jede Frequenzgruppe ein Tonalitätsmaß berechnet werden, in
dem die ursprünglichen und die prädizierten Werte mit
einander verglichen werden. Ein Hauptproblem dabei ist der
begrenzte dynamische Bereich des Prädiktors. Eine rausch
hafte Frequenzgruppe mit einem hohen Pegel dominiert den
Prädiktor aufgrund des resultierenden großen Fehlers. Andere
Frequenzregionen mit tonalen Komponenten könnten als rausch
haft interpretiert werden. Dieses Problem kann durch Verwen
dung eines iterativen Algorithmus verringert werden, bei dem
das Fehlersignal normalerweise einen geringeren Pegel als
das Ursprungssignal hat und wieder durch einen weiteren Prä
diktor eingespeist wird, wonach beide prädizierten Signale
addiert werden. Weitere Verfahren sind in der Veröffentli
chung von Schulz ausgeführt.
Die nun als rauschhaft klassifizierte Gruppe von Spektral
werten wird nicht wie üblich quantisiert und Entropie- bzw.
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta
belle) zum Empfänger übertragen. Statt dessen wird nur eine
Kennung zur Anzeige der Rauschsubstitution sowie ein Maß für
die Energie der rauschhaften Gruppe von Spektralwerten als
Seiteninformationen übertragen. Im Empfänger werden dann für
die substituierten Koeffizienten Zufallswerte (Rauschen) mit
der übertragenen Energie eingesetzt. Die rauschhaften Spek
tralwerte werden also durch Zufallsspektralwerte mit ent
sprechendem Energiemaß substituiert.
Durch die Übertragung einer einzigen Energieinformation an
stelle einer Gruppe von Codes, d. h. mehrerer quantisierter
und codierter Spektralwerte, für die quantisierten Spektral
koeffizienten sind erhebliche Dateneinsparungen möglich. Es
ist offensichtlich, daß die erreichbaren Datenrateneinspa
rungen vom Signal abhängen. Handelt es sich z. B. um ein
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen
rauschhaften Gruppen, oder mit transienten Eigenschaften, so
wird eine geringere Datenrateneinsparung möglich sein, als
wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf
ten Gruppen codiert wird.
Der eingangs beschriebene Standard MPEG-2 Advanced Audio
Coding (AAC) unterstützt die Möglichkeit der Rauschsubsti
tution nicht. Die erheblichen Datenrateneinsparungen sind
mit dem bisherigen Standard daher nicht möglich.
Die Aufgabe der vorliegenden Erfindung besteht darin, den
bestehenden Standard MPEG-2 AAC um die Möglichkeiten der
Rauschsubstitution derart zu erweitern, daß weder die grund
sätzliche Codiererstruktur noch die Struktur der vorhandenen
Bitstromsyntax angetastet wird.
Diese Aufgabe wird durch ein Verfahren zum Signalisieren
einer Rauschsubstitution beim Codieren eines Audiosignals
gemäß Anspruch 1, durch ein Verfahren zum Codieren eines
Audiosignals gemäß Anspruch 10 und durch ein Verfahren zum
Decodieren eines Audiosignals gemäß Anspruch 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde,
daß im Falle der Durchführung einer Rauschsubstitution für
ein rauschhaftes Band keine Quantisierung und Redundanz-
Codierung oder Huffman-Codierung von Spektralwerten durch
geführt werden braucht. Statt dessen werden, wie es bereits
beschrieben wurde, im Decodierer Rausch-Spektralwerte für
eine rauschhafte Gruppe erzeugt, deren Maß für die Energie
dem Maß für die Energie der Rausch-substituierten Spektral
werte entspricht. In anderen Worten werden für rauschhafte
Gruppen keine Codiertabellen verwendet, da keine Redun
danz-Codierung stattfindet. Somit ist auch die Codier
tabellennummer, d. h. der entsprechende Platz in der Bit
stromsyntax des codierten Audiosignals, überflüssig. Dieser
Platz der Bitstromsyntax, d. h. die Codiertabellennummer,
kann nun gemäß der vorliegenden Erfindung dazu verwendet
werden, anzuzeigen, daß eine Gruppe rauschhaft ist und einer
Rauschsubstitution unterzogen wird. Da, wie es ebenfalls
erwähnt wurde, lediglich 12 Codiertabellen vorgesehen
werden, der Platz in der Bitstromsyntax jedoch 4 Bit
beträgt, mit denen insgesamt ein Zahlenbereich von 0-15
binär dargestellt werden kann, existieren sog. zusätzliche
Codiertabellennummern, die auf keine Codiertabelle verwei
sen. Lediglich die Codiertabellennummern 0-11 verweisen
auf eine Codiertabellennummer. Bei einem bevorzugten Aus
führungsbeispiel der vorliegenden Erfindung wird die Co
diertabellennummer 13 verwendet, um dem Decodierer zu si
gnalisieren, daß die Gruppe, die in ihren Seiteninforma
tionen die Codiertabellennummer 13, d. h. die zusätzliche
Codiertabellennummer, aufweist, eine rauschhafte Gruppe ist
und einer Rauschsubstitution unterzogen worden ist. Für
Fachleute ist es jedoch offensichtlich, daß auch die zu
sätzliche oder freie Codiertabellennummer 12, 14 oder 15
eingesetzt werden kann.
Wie es bereits weiter vorne dargestellt wurde, können die
Spektralwerte, die nach einer Frequenzbereichstransformation
des zeitlichen Audiosignals vorhanden sind, in Skalenfaktor
bänder gruppiert werden, um eine optimale Maskierung des
Quantisierungsrauschens zu erreichen. Bei dem Standard
MPEG-2 AAC sind zusätzlich mehrere Skalenfaktorbänder in
Abschnitte oder "Sections" gruppiert. Eine Section besteht
daher zumeist aus mehreren Skalenfaktorbändern. Das heißt,
daß eine Rauschsubstitution immer für eine ganze Section
signalisiert wird, d. h. ob die Rauschsubstitution aktiv
oder nicht aktiv ist. Aufgrund der Tatsache, daß die rausch
haften Skalenfaktorbänder nicht quantisiert werden, müssen
auch keine Skalenfaktoren für dieselben berechnet oder
übertragen bzw. codiert werden. Das heißt, daß zusätzlich zu
der Codiertabellennummer, welche die Rauschsubstitution an
sich anzeigt, eine weitere Stelle im Bitstrom frei ist,
welche anderweitig besetzt werden kann. Bei dem bevorzugten
Ausführungsbeispiel der vorliegenden Erfindung wird an die
Stelle, die für den Skalenfaktor in den Seiteninformationen
zu einem Skalenfaktorband vorgesehen ist, ein Maß für die
Energie der ersetzten Spektralkoeffizienten geschrieben. Wie
es bereits erwähnt wurde, hängt die Wahrnehmung von Rausch
signalen primär von deren spektraler Zusammensetzung und
nicht von deren tatsächlicher Wellenform ab. Aus den Spek
tralwerten eines rauschhaften Skalenfaktorbandes wird somit
ein Maß für die Energie der Spektralwerte in dem rauschhaf
ten Skalenfaktorband berechnet. Diese Größe wird anstelle
des Skalenfaktorbandes in die Seiteninformationen einge
tragen, ohne daß zusätzliche Seiteninformationen benötigt
werden oder die Struktur der Bitstromsyntax verändert werden
muß. Diese zu übertragende Größe kann entweder die Gesamt
energie der Spektralwerte in einem rauschhaften Skalenfak
torband sein oder die mittlere Energie, die beispielsweise
auf einen Spektralwert oder eine Spektrallinie in dem Ska
lenfaktorband normiert ist. Bei dem bevorzugten Ausfüh
rungsbeispiel der vorliegenden Erfindung wird jedoch nicht
die mittlere Energie sondern die Gesamtenergie als Maß für
die Energie verwendet.
Für die Übertragung des Maßes für die Energie der ersetzten
Spektralwerte wird vorzugsweise die gleiche Auflösung ver
wendet, wie sie zur inversen Skalierung der übertragenen
spektralen Daten verwendet wird, d. h. eine logarithmische
Skalierung mit einer Auflösung von 1,5 dB beim AAC-Standard.
Ähnlich wie beim Layer-III-Verfahren wird beim AAC-Verfahren
zur Rekonstruktion der nicht-rauschhaften, d. h. tonalen,
Spektralanteile a) die inverse Kennlinie des nichtlinearen
Quantisierers auf den quantisierten Wert (X) der Spektralli
nie angewendet (Y = X4/3), und dann b) eine "inverse Skalie
rung" entsprechend der übertragenen Skalenfaktoren durchge
führt. (Z = Y x 2(SF/4)), wobei SF der Skalenfaktor des je
weiligen Skalenfaktorbandes ist, und wobei Z den requanti
sierten Spektralwert darstellt. Die Auflösung beträgt somit
1,5 dB.
Bei dem Verfahren zum Signalisieren einer Rauschsubstitution
beim Codieren eines Audiosignals gemäß der vorliegenden
Erfindung, bei dem für ein rauschhaftes Skalenfaktorband
kein Skalenfaktor benötigt wird, sondern statt dessen das Maß
für die Energie der substituierten Spektralwerte eingesetzt
wird, werden die selben Codiergesetze für das Maß für die
Energie der substituierten Spektralwerte eingesetzt wie sie
sonst beim Skalenfaktor zur Anwendung kommen würden. Dies
stellt eine vorteilhafte Nutzung bereits vorhandener Resour
cen im AAC-Codierer dar und erfordert keinerlei zusätzliche
Seiteninformationen.
Eine weitere vorteilhafte Anwendung der Signalisierung der
Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das
menschliche Ohr ist in der Lage, eine Korrelation zwischen
den Signalen bzw. Kanälen (L und R) eines Stereokanalpaars,
welches bei AAC als "Channel Pair" bezeichnet wird, bis zu
einem gewissen Grad wahrzunehmen. Daher sollte auch im Falle
einer Rauschsubstitution die Korrelation zwischen den beiden
ersetzten bzw. substituierten Rauschsignalen des Kanalpaars
ähnlich zu der des Originalsignals sein. Skalenfaktorbänder
im linken und im rechten Kanal, welche die gleiche Mitten
frequenz haben, können beide rauschsubstituiert werden, wenn
eine Rauschhaftigkeit erkannt wird. Werden beide Kanäle
rauschsubstituiert, und werden keine weiteren Vorkehrungen
getroffen, so haben die im Codierer zufällig erzeugten
Rausch-Spektralwerte zwar die gleiche Gesamtenergie wie im
ursprünglichen Audiosignal, dieselben sind jedoch aufgrund
des zufälligen Erzeugens völlig unkorreliert. Dies kann
unter bestimmten Umständen zu hörbaren Fehlern führen. Um
dies zu vermeiden ist es möglich, die selben zufällig er
zeugten Rausch-Spektralwerte eines Skalenfaktorbandes für
beide Kanäle zu verwenden, was einer vollständigen Korrela
tion der rauschhaften Skalenfaktorbänder des linken und
rechten Kanals entspricht.
Dabei wird gemäß einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung folgendermaßen vorgegangen: Für jedes
Kanalpaar existiert im AAC-Standard eine sog. Mitte/Seite-
Maske (M/S-Maske), welche im Standard selbst als "ms used"
(= ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein
Bitvektor, der bandweise anzeigt, ob zwischen den beiden
Kanälen eine M/S-Stereocodierung angewendet worden ist,
welche für Fachleute bekannt ist und einführend in J.D.
Johnston, A.J. Ferreira: "Sum-Difference Stereo Transform
Coding", IEEE ICASSP 1992, S. 569-571, und auch im MPEG-
AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei
ner Anzahl von Bits, wobei jedes Bit einem Skalenfaktorband
zugeordnet ist. Wird in einem Skalenfaktorband eine M/S-Co
dierung verwendet, so wird ein Signalisierungsbit in der
M/S-Maske in den Seiteninformationen gesetzt sein, das die
M/S-Codierung dem Decodierer mitteilt. Wird jedoch ein
rauschhaftes Skalenfaktorband im linken sowie im rechten
Kanal für die gleiche Mittenfrequenz der Skalenfaktorbänder
(für L und für R) erkannt, so findet selbstverständlich
keine Mitte/Seite-Codierung statt. Das M/S-Bit für dieses
Skalenfaktorband steht also ebenso wie die Codiertabellen
nummer und der Skalenfaktor in dem Bitstrom entsprechend der
Bitstromsyntax zur Verfügung, um etwas anderes zu signali
sieren. In diesem Fall kann das Bit der M/S-Maske für das
rauschhafte Skalenfaktorband beider Kanäle verwendet werden,
um anzuzeigen, ob für den linken und rechten Kanal unabhän
gige Rausch-Spektralwerte oder Rauschvektoren erzeugt werden
sollen, was dem Normalfall entsprechen würde, oder ob der
gleiche Rauschvektor für sowohl den linken als auch rechten
Kanal in dem rauschhaften Skalenfaktorband verwendet werden
soll.
Wie es für Fachleute bekannt ist, können bei nichtrausch
haften Skalenfaktorbändern die Skalenfaktoren mittels einer
Differenzcodierung codiert werden. Für einen entsprechenden
Skalenfaktor in einem folgenden Skalenfaktorband muß nicht
wieder der gesamte Wert des Skalenfaktors codiert werden,
sondern lediglich die Differenz desselben vom vorhergehen
den. Dies wird als Differenzcodierung bezeichnet. Diese
Differenzcodierung wird bei einem bevorzugten Ausführungs
beispiel der vorliegenden Erfindung ebenfalls zum Codieren
des Maßes für die Energie der Spektralanteile in einem
rauschhaften Skalenfaktorband verwendet. Damit muß für ein
folgendes Skalenfaktorband nicht wieder das gesamte Maß der
Energie sondern lediglich die Differenz des aktuellen vom
vorhergehenden codiert werden, was wiederum zu Biteinsparun
gen Anlaß gibt. Selbstverständlich muß immer ein erster Aus
gangswert vorhanden sein, der jedoch auch ein fester von
vorneherein vorgegebener Wert sein kann. Dieses Verfahren
der Differenzcodierung wird daher besonders vorteilhaft
sein, wenn aufeinanderfolgende Skalenfaktorbänder Frames
rauschhaft sind.
Claims (13)
1. Verfahren zum Signalisieren einer Rauschsubstitution
beim Codieren eines Audiosignals, mit folgenden Schrit
ten:
Transformieren eines zeitlichen Audiosignals in den Fre quenzbereich, um Spektralwerte zu erhalten;
Gruppieren der Spektralwerte in Gruppen von Spektralwer ten;
Erfassen, ob eine Gruppe von Spektralwerten eine rausch hafte Gruppe ist;
falls eine Gruppe nicht rauschhaft ist, Zuweisen einer Codiertabelle aus einer Mehrzahl von Codiertabellen zum Redundanzcodieren der nicht rauschhaften Gruppe, wobei mittels einer Codiertabellennummer auf die der Gruppe zugewiesene Codiertabelle verwiesen wird; und
falls eine Gruppe rauschhaft ist, Zuweisen einer zusätz lichen Codiertabellennummer, die nicht auf eine Codier tabelle verweist, zu dieser Gruppe, um zu signalisieren, daß diese Gruppe rauschhaft ist und daher nicht redun danz-codiert wird.
Transformieren eines zeitlichen Audiosignals in den Fre quenzbereich, um Spektralwerte zu erhalten;
Gruppieren der Spektralwerte in Gruppen von Spektralwer ten;
Erfassen, ob eine Gruppe von Spektralwerten eine rausch hafte Gruppe ist;
falls eine Gruppe nicht rauschhaft ist, Zuweisen einer Codiertabelle aus einer Mehrzahl von Codiertabellen zum Redundanzcodieren der nicht rauschhaften Gruppe, wobei mittels einer Codiertabellennummer auf die der Gruppe zugewiesene Codiertabelle verwiesen wird; und
falls eine Gruppe rauschhaft ist, Zuweisen einer zusätz lichen Codiertabellennummer, die nicht auf eine Codier tabelle verweist, zu dieser Gruppe, um zu signalisieren, daß diese Gruppe rauschhaft ist und daher nicht redun danz-codiert wird.
2. Verfahren nach Anspruch 1, bei dem die Gruppen von Spek
tralwerten Abschnitte (Sections) sind, wobei eine Co
diertabellennummer für nicht rauschhafte Abschnitte und
eine zusätzlich Codiertabellennummer für rauschhafte Ab
schnitte vergeben werden.
3. Verfahren nach Anspruch 2,
bei dem ein Abschnitt eines oder mehrere Skalenfaktor
bänder aufweist, wobei jedem Skalenfaktorband ein Ska
lenfaktor zugeordnet ist; und
bei dem im Falle eines rauschhaften Skalenfaktorbandes
ein Maß für die Energie der Spektralwerte in dem rausch
haften Skalenfaktorband anstelle eines Skalenfaktors co
diert wird.
4. Verfahren nach Anspruch 3, bei dem das Maß für die Ener
gie der Spektralwerte in einer rauschhaften Gruppe die
auf einen Referenzwert normierte mittlere Energie der
selben in einem Skalenfaktorband ist.
5. Verfahren nach Anspruch 3, bei dem das Maß für die Ener
gie die Gesamtenergie der Spektralwerte in dem rausch
haften Skalenfaktorband ist.
6. Verfahren nach Anspruch 3 oder 4, bei dem zum Codieren
des Maßes für die Energie der rauschhaften Spektralwerte
in dem Skalenfaktorband die selbe Skalierung verwendet
wird, die üblicherweise zum Codieren eines Skalenfaktors
eines Skalenfaktorbandes verwendet wird, das kein
rauschhaftes Skalenfaktorband ist.
7. Verfahren nach einem der Ansprüche 3-6, bei dem die
Codierung des Maßes für die Energie der Spektralwerte in
rauschhaften Skalenfaktorbändern eine Differenzcodierung
ist.
8. Verfahren nach einem der Ansprüche 1-7,
bei dem das Audiosignal ein Stereoaudiosignal ist,
bei dem eine Mitte/Seite-Codierung zweier Kanäle des Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen weise anzeigbar ist, und
bei dem im Fall von frequenzmäßigen entsprechenden rauschhaften Gruppen beider Kanäle durch die Mitte/Sei te-Maske anzeigbar ist, ob unterschiedliche oder gleiche Rausch-Spektralwerte für beide Kanäle beim Decodieren eines decodierten Audiosignals zu verwenden sind.
bei dem das Audiosignal ein Stereoaudiosignal ist,
bei dem eine Mitte/Seite-Codierung zweier Kanäle des Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen weise anzeigbar ist, und
bei dem im Fall von frequenzmäßigen entsprechenden rauschhaften Gruppen beider Kanäle durch die Mitte/Sei te-Maske anzeigbar ist, ob unterschiedliche oder gleiche Rausch-Spektralwerte für beide Kanäle beim Decodieren eines decodierten Audiosignals zu verwenden sind.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem das Erfassen, ob eine Gruppe von Spektralwerten eine
rauschhafte Gruppe ist, mittels des zeitlichen Audiosi
gnals oder mittels der Spektralwerte des zeitlichen Au
diosignals oder mittels sowohl des zeitlichen Audiosi
gnals als auch der Spektralwerte des zeitlichen Audio
signals durchgeführt wird.
10. Verfahren zum Codieren eines Audiosignals mit folgenden
Schritten:
Signalisieren einer Rauschsubstitution nach einem der Ansprüche 1-9;
Berechnen eines Maßes für die Energie einer rauschhaften Gruppe;
Eintragen des Maßes für die Energie in der Gruppe zuge ordnete Seiteninformationen;
Eintragen der zusätzlichen Codiertabellennummer in die der Gruppe zugeordneten Seiteninformationen;
Quantisieren der nichtrauschhaften Gruppen und Codieren der quantisierten nichtrauschhaften Gruppen unter Ver wendung der Codiertabelle, auf die durch die Codier tabellennummer verwiesen wird, während für rauschhafte Gruppen keine Quantisierung oder Codierung stattfindet; und
Bilden eines Bitstroms, der quantisierte und codierte nichtrauschhafte Gruppen sowie für rauschhafte Gruppen ein Maß für die Energie der Spektralwerte der rausch haften Gruppen und die zusätzliche Codiertabellennummer zur Signalisierung der rauschhaften Gruppen aufweist.
Signalisieren einer Rauschsubstitution nach einem der Ansprüche 1-9;
Berechnen eines Maßes für die Energie einer rauschhaften Gruppe;
Eintragen des Maßes für die Energie in der Gruppe zuge ordnete Seiteninformationen;
Eintragen der zusätzlichen Codiertabellennummer in die der Gruppe zugeordneten Seiteninformationen;
Quantisieren der nichtrauschhaften Gruppen und Codieren der quantisierten nichtrauschhaften Gruppen unter Ver wendung der Codiertabelle, auf die durch die Codier tabellennummer verwiesen wird, während für rauschhafte Gruppen keine Quantisierung oder Codierung stattfindet; und
Bilden eines Bitstroms, der quantisierte und codierte nichtrauschhafte Gruppen sowie für rauschhafte Gruppen ein Maß für die Energie der Spektralwerte der rausch haften Gruppen und die zusätzliche Codiertabellennummer zur Signalisierung der rauschhaften Gruppen aufweist.
11. Verfahren zum Decodieren eines codierten Audiosignals
mit folgenden Schritten:
Empfangen eines Bitstroms;
Redundanz-Decodieren von nichtrauschhaften Gruppen auf grund einer durch eine Codiertabellennummer angezeigten Codiertabelle und Requantisieren von redundanz-decodier ten, quantisierten Spektralwerte;
Erfassen einer rauschhaften Gruppe von Spektralwerten aufgrund einer zusätzlichen Codiertabellennummer, die einer solchen Gruppe zugeordnet ist;
Erfassen eines Maßes für die Energie der Spektralwerte in der rauschhaften Gruppe aufgrund von der Gruppe zu geordneten Seiteninformationen;
Erzeugen von Rausch-Spektralwerten für die rauschhafte Gruppe, wobei das Maß der Energie der Rausch-Spektral werte in der rauschhaften Gruppe gleich dem Maß für die Energie von Spektralwerten der rauschhaften Gruppe in dem ursprünglichen Signal ist;
Transformieren der requantisierten Spektralwerte und der Rausch-Spektralwerte in den Zeitbereich, um ein deco diertes Audiosignal zu erhalten.
Empfangen eines Bitstroms;
Redundanz-Decodieren von nichtrauschhaften Gruppen auf grund einer durch eine Codiertabellennummer angezeigten Codiertabelle und Requantisieren von redundanz-decodier ten, quantisierten Spektralwerte;
Erfassen einer rauschhaften Gruppe von Spektralwerten aufgrund einer zusätzlichen Codiertabellennummer, die einer solchen Gruppe zugeordnet ist;
Erfassen eines Maßes für die Energie der Spektralwerte in der rauschhaften Gruppe aufgrund von der Gruppe zu geordneten Seiteninformationen;
Erzeugen von Rausch-Spektralwerten für die rauschhafte Gruppe, wobei das Maß der Energie der Rausch-Spektral werte in der rauschhaften Gruppe gleich dem Maß für die Energie von Spektralwerten der rauschhaften Gruppe in dem ursprünglichen Signal ist;
Transformieren der requantisierten Spektralwerte und der Rausch-Spektralwerte in den Zeitbereich, um ein deco diertes Audiosignal zu erhalten.
12. Verfahren gemäß Anspruch 11, bei dem das Erzeugen der
Rausch-Spektralwerte durch Erzeugen von Zufallszahlen
oder durch Erhalten derselben aus einer Tabelle statt
findet, wobei die addierte Energie der Rausch-Spektral
werte dem Maß der Energie der Spektralwerte der rausch
haften Gruppe des ursprünglichen Audiosignals ent
spricht.
13. Verfahren nach Anspruch 11 oder 12, das ferner folgende
Schritte aufweist:
Erfassen einer Mitte/Seite-Maske für Stereoaudiosignale;
aufgrund der Mitte/Seite-Maske für Stereoaudiosignale, Verwenden identischer Rausch-Spektralwerte für entspre chende rauschhafte Gruppen beider Kanäle, oder Erzeugen zweier unabhängiger Gruppen von Rausch-Spektralwerten für bei Kanäle.
Erfassen einer Mitte/Seite-Maske für Stereoaudiosignale;
aufgrund der Mitte/Seite-Maske für Stereoaudiosignale, Verwenden identischer Rausch-Spektralwerte für entspre chende rauschhafte Gruppen beider Kanäle, oder Erzeugen zweier unabhängiger Gruppen von Rausch-Spektralwerten für bei Kanäle.
Priority Applications (15)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19730129A DE19730129C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
PCT/EP1998/001480 WO1999004505A1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
JP50619399A JP3926399B2 (ja) | 1997-07-14 | 1998-03-13 | オーディオ信号コーディング中にノイズ置換を信号で知らせる方法 |
AU70352/98A AU716982B2 (en) | 1997-07-14 | 1998-03-13 | Method for signalling a noise substitution during audio signal coding |
EP98916947A EP0931386B1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
PT98916947T PT931386E (pt) | 1997-07-14 | 1998-03-13 | Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio |
ES98916947T ES2150313T3 (es) | 1997-07-14 | 1998-03-13 | Procedimiento para señalizar una sustitucion de ruido en la codificacion de una señal audio. |
AT98916947T ATE194440T1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
CA002284220A CA2284220C (en) | 1997-07-14 | 1998-03-13 | Method for signalling a noise substitution during audio signal coding |
DE59800189T DE59800189D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
US09/367,775 US6766293B1 (en) | 1997-07-14 | 1998-03-13 | Method for signalling a noise substitution during audio signal coding |
DK98916947T DK0931386T3 (da) | 1997-07-14 | 1998-03-13 | Fremgangsmåde til signalisering af en støjsubstitution ved kodning af et audiosignal |
KR1019997006508A KR100304055B1 (ko) | 1997-07-14 | 1999-07-19 | 음성 신호 부호화동안 잡음 대체를 신호로 알리는 방법 |
GR20000401452T GR3033861T3 (en) | 1997-07-14 | 2000-07-06 | Method for signalling a noise substitution during audio signal coding |
JP2004267489A JP3878952B2 (ja) | 1997-07-14 | 2004-09-14 | オーディオ信号コーディング中にノイズ置換を信号で知らせる方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19730129A DE19730129C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19730129A1 true DE19730129A1 (de) | 1999-01-21 |
DE19730129C2 DE19730129C2 (de) | 2002-03-07 |
Family
ID=7835662
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19730129A Expired - Lifetime DE19730129C2 (de) | 1997-07-14 | 1997-07-14 | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
DE59800189T Expired - Lifetime DE59800189D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59800189T Expired - Lifetime DE59800189D1 (de) | 1997-07-14 | 1998-03-13 | Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals |
Country Status (13)
Country | Link |
---|---|
US (1) | US6766293B1 (de) |
EP (1) | EP0931386B1 (de) |
JP (2) | JP3926399B2 (de) |
KR (1) | KR100304055B1 (de) |
AT (1) | ATE194440T1 (de) |
AU (1) | AU716982B2 (de) |
CA (1) | CA2284220C (de) |
DE (2) | DE19730129C2 (de) |
DK (1) | DK0931386T3 (de) |
ES (1) | ES2150313T3 (de) |
GR (1) | GR3033861T3 (de) |
PT (1) | PT931386E (de) |
WO (1) | WO1999004505A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003044776A1 (en) * | 2001-11-23 | 2003-05-30 | Koninklijke Philips Electronics N.V. | Audio coding |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
PT1423847E (pt) * | 2001-11-29 | 2005-05-31 | Coding Tech Ab | Reconstrucao de componentes de frequencia elevada |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
JP3900000B2 (ja) * | 2002-05-07 | 2007-03-28 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
JP4296752B2 (ja) * | 2002-05-07 | 2009-07-15 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
US7016547B1 (en) | 2002-06-28 | 2006-03-21 | Microsoft Corporation | Adaptive entropy encoding/decoding for screen capture content |
ATE381090T1 (de) | 2002-09-04 | 2007-12-15 | Microsoft Corp | Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7433824B2 (en) * | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
CN1771533A (zh) | 2003-05-27 | 2006-05-10 | 皇家飞利浦电子股份有限公司 | 音频编码 |
US7688894B2 (en) | 2003-09-07 | 2010-03-30 | Microsoft Corporation | Scan patterns for interlaced video content |
US7782954B2 (en) * | 2003-09-07 | 2010-08-24 | Microsoft Corporation | Scan patterns for progressive video content |
US7724827B2 (en) * | 2003-09-07 | 2010-05-25 | Microsoft Corporation | Multi-layer run level encoding and decoding |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
KR100707173B1 (ko) * | 2004-12-21 | 2007-04-13 | 삼성전자주식회사 | 저비트율 부호화/복호화방법 및 장치 |
CN101116135B (zh) * | 2005-02-10 | 2012-11-14 | 皇家飞利浦电子股份有限公司 | 声音合成 |
US7539612B2 (en) | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7684981B2 (en) * | 2005-07-15 | 2010-03-23 | Microsoft Corporation | Prediction of spectral coefficients in waveform coding and decoding |
US7693709B2 (en) | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7630882B2 (en) | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7599840B2 (en) * | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
US7933337B2 (en) * | 2005-08-12 | 2011-04-26 | Microsoft Corporation | Prediction of transform coefficients for image compression |
US8599925B2 (en) * | 2005-08-12 | 2013-12-03 | Microsoft Corporation | Efficient coding and decoding of transform blocks |
US7565018B2 (en) * | 2005-08-12 | 2009-07-21 | Microsoft Corporation | Adaptive coding and decoding of wide-range coefficients |
US7953604B2 (en) | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US8190425B2 (en) | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7831434B2 (en) | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
ES2312142T3 (es) * | 2006-04-24 | 2009-02-16 | Nero Ag | Aparato avanzado para codificar datos de audio digitales. |
US8184710B2 (en) * | 2007-02-21 | 2012-05-22 | Microsoft Corporation | Adaptive truncation of transform coefficient data in a transform-based digital media codec |
US7761290B2 (en) | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
WO2009084918A1 (en) * | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8179974B2 (en) | 2008-05-02 | 2012-05-15 | Microsoft Corporation | Multi-level representation of reordered transform coefficients |
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
US8406307B2 (en) | 2008-08-22 | 2013-03-26 | Microsoft Corporation | Entropy coding/decoding of hierarchically organized data |
EP2182513B1 (de) * | 2008-11-04 | 2013-03-20 | Lg Electronics Inc. | Vorrichtung zur Verarbeitung eines Audiosignals und Verfahren dafür |
KR101259120B1 (ko) * | 2008-11-04 | 2013-04-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
CN111125423A (zh) * | 2019-11-29 | 2020-05-08 | 维沃移动通信有限公司 | 一种去噪方法及移动终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE9006717U1 (de) * | 1990-06-15 | 1991-10-10 | Philips Patentverwaltung Gmbh, 2000 Hamburg, De | |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5703999A (en) * | 1992-05-25 | 1997-12-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels |
TW295747B (de) | 1994-06-13 | 1997-01-11 | Sony Co Ltd | |
JP3371590B2 (ja) * | 1994-12-28 | 2003-01-27 | ソニー株式会社 | 高能率符号化方法及び高能率復号化方法 |
-
1997
- 1997-07-14 DE DE19730129A patent/DE19730129C2/de not_active Expired - Lifetime
-
1998
- 1998-03-13 PT PT98916947T patent/PT931386E/pt unknown
- 1998-03-13 EP EP98916947A patent/EP0931386B1/de not_active Expired - Lifetime
- 1998-03-13 AU AU70352/98A patent/AU716982B2/en not_active Expired
- 1998-03-13 US US09/367,775 patent/US6766293B1/en not_active Expired - Lifetime
- 1998-03-13 JP JP50619399A patent/JP3926399B2/ja not_active Expired - Lifetime
- 1998-03-13 WO PCT/EP1998/001480 patent/WO1999004505A1/de active IP Right Grant
- 1998-03-13 DK DK98916947T patent/DK0931386T3/da active
- 1998-03-13 ES ES98916947T patent/ES2150313T3/es not_active Expired - Lifetime
- 1998-03-13 CA CA002284220A patent/CA2284220C/en not_active Expired - Lifetime
- 1998-03-13 AT AT98916947T patent/ATE194440T1/de active
- 1998-03-13 DE DE59800189T patent/DE59800189D1/de not_active Expired - Lifetime
-
1999
- 1999-07-19 KR KR1019997006508A patent/KR100304055B1/ko not_active IP Right Cessation
-
2000
- 2000-07-06 GR GR20000401452T patent/GR3033861T3/el unknown
-
2004
- 2004-09-14 JP JP2004267489A patent/JP3878952B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE9006717U1 (de) * | 1990-06-15 | 1991-10-10 | Philips Patentverwaltung Gmbh, 2000 Hamburg, De | |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003044776A1 (en) * | 2001-11-23 | 2003-05-30 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2003044775A1 (en) * | 2001-11-23 | 2003-05-30 | Koninklijke Philips Electronics N.V. | Perceptual noise substitution |
Also Published As
Publication number | Publication date |
---|---|
US6766293B1 (en) | 2004-07-20 |
EP0931386B1 (de) | 2000-07-05 |
PT931386E (pt) | 2000-10-31 |
CA2284220C (en) | 2002-09-24 |
CA2284220A1 (en) | 1999-01-28 |
GR3033861T3 (en) | 2000-10-31 |
JP2000515266A (ja) | 2000-11-14 |
JP2005049889A (ja) | 2005-02-24 |
AU716982B2 (en) | 2000-03-16 |
EP0931386A1 (de) | 1999-07-28 |
JP3878952B2 (ja) | 2007-02-07 |
KR100304055B1 (ko) | 2001-11-03 |
DE59800189D1 (de) | 2000-08-10 |
DE19730129C2 (de) | 2002-03-07 |
ES2150313T3 (es) | 2000-11-16 |
DK0931386T3 (da) | 2000-11-20 |
AU7035298A (en) | 1999-02-10 |
WO1999004505A1 (de) | 1999-01-28 |
JP3926399B2 (ja) | 2007-06-06 |
ATE194440T1 (de) | 2000-07-15 |
KR20000070280A (ko) | 2000-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19730129C2 (de) | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals | |
DE19730130C2 (de) | Verfahren zum Codieren eines Audiosignals | |
DE69833834T2 (de) | Skalierbares Audiokodier-und Dekodierverfahren und Gerät | |
EP0910928B1 (de) | Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion | |
DE602004005197T2 (de) | Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals | |
DE69834010T2 (de) | Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür | |
DE69927505T2 (de) | Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom | |
DE60225276T2 (de) | Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm | |
DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
EP0750811B1 (de) | Verfahren zum codieren mehrerer audiosignale | |
DE69732761T2 (de) | Verfahren und Vorrichtung zur kalkulierbaren Audiocodierung bzw.-decodie- rung | |
DE60310716T2 (de) | System für die audiokodierung mit füllung von spektralen lücken | |
DE602004013031T2 (de) | Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms | |
DE19537338C1 (de) | Verfahren und Vorrichtung zum Codieren von Audiosignalen | |
EP1145227B1 (de) | Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals | |
DE69534140T2 (de) | Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren | |
DE102005014477A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung | |
EP0642719B1 (de) | Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer voneinander abhängiger kanäle | |
DE60112407T2 (de) | Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten | |
DE60300500T2 (de) | Signalisierung von Fensterschaltungen in einem MPEG Layer 3 Audio Datenstrom | |
DE69937140T2 (de) | Adaptive bit-zuordnung für audio-kodierer | |
DE60217612T2 (de) | Verfahren und Vorrichtung zur Kodierung und Dekodierung von Sprachsignalen | |
DE19742201C1 (de) | Verfahren und Vorrichtung zum Codieren von Audiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |