DE19730129A1

DE19730129A1 - Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals

Info

Publication number: DE19730129A1
Application number: DE19730129A
Authority: DE
Inventors: Juergen Dr Herre; Uwe Gbur; Andreas Ehret; Martin Dietz; Bodo Teichmann; Oliver Kunz; Karlheinz Dr Brandenburg; Heinz Dr Gerhaeuser
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 1997-07-14
Filing date: 1997-07-14
Publication date: 1999-01-21
Anticipated expiration: 2017-07-15
Also published as: US6766293B1; EP0931386B1; PT931386E; CA2284220C; CA2284220A1; GR3033861T3; JP2000515266A; JP2005049889A; AU716982B2; EP0931386A1; JP3878952B2; KR100304055B1; DE59800189D1; DE19730129C2; ES2150313T3; DK0931386T3; AU7035298A; WO1999004505A1; JP3926399B2; ATE194440T1

Description

Die vorliegende Erfindung bezieht sich auf Audiocodierver fahren und insbesondere auf Audiocodierverfahren nach dem Standard ISO/MPEG, wie z. B. MPEG-1, MPEG-2, MPEG-2 AAC, zur datenreduzierten Darstellung von hochqualitativen Audio signalen.

Der Standardisierungskörper ISO/IEC JTC1/SC29/WG11, der auch als die Moving Pictures Expert Group (MPEG) bekannt ist, wurde 1988 gegründet, um digitale Video- und Audiocodier ungsschemen für niedrige Datenraten zu spezifizieren. Im November 1992 wurde die erste Spezifikationsphase durch den Standard MPEG-1 vollendet. Das Audiocodiersystem nach MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in einem Einkanal- oder Zweikanalstereo-Modus bei Abtastfre quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-1 Layer II liefert Rundfunkqualität, wie sie durch die Inter national Telecommunication Union spezifiziert ist, bei einer Datenrate von 128 kb/s pro Kanal.

In seiner zweiten Entwicklungsphase bestanden die Ziele von MPEG darin, eine Mehrkanalerweiterung für MPEG-1-Audio zu definieren, die zur existierenden MPEG-1-Systemen rückwärts kompatibel sein sollte, und ebenfalls einen Audiocodier standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz, 24 kHz) als bei MPEG-1 zu definieren. Der rückwärtskompa tible Standard (MPEG-2 BC) sowie der Standard mit niedri geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994 vollendet. MPEG-2 BC liefert eine gute Audioqualität bei Datenraten von 640-896 kb/s für 5 Kanäle mit voller Band breite. Seit 1994 besteht eine weitere Anstrengung des MPEG-2-Audiostandardisierungskommittees darin, einen Multi kanalstandard mit höherer Qualität zu definieren, als sie erreichbar ist, wenn eine Rückwärtskompatibilität zur MPEG-1 gefordert wird. Dieser nicht-rückwärtskompatible Audio standard gemäß MPEG-2 wird als MPEG-2 NBC bezeichnet. Das Ziel dieser Entwicklung besteht darin, Rundfunkqualitäten gemäß den ITU-R-Anforderungen bei Datenraten von 384 kb/s oder darunter für 5-kanalige Audiosignale, bei denen jeder Kanal die volle Bandbreite hat, zu erreichen. Der Audio codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das Schema MPEG-2 NBC wird den Kern für den bereits geplanten Audiostandard MPEG-4 bilden, welcher höhere Datenraten haben wird (über 40 kb/s pro Kanal). Der NBC oder nicht rückwärts kompatible Standard kombiniert den Codierwirkungsgrad einer hochauflösenden Filterbank, von Prädiktionstechniken und der redundanzreduzierenden Huffman-Codierung, um eine Audioco dierung mit Rundfunkqualität bei sehr niedrigen Datenraten zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine detaillierte Darstellung des technischen Inhalts von MPEG-2 AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996, Preprint 4382.

Effiziente Audiocodierverfahren entfernen sowohl Redundanzen als auch Irrelevanzen von Audiosignalen. Korrelationen zwischen Audioabtastwerten und Statistiken der Abtastwert darstellung werden ausgenutzt, um Redundanzen zu entfernen. Frequenzbereichs- und Zeitbereichsmaskierungseigenschaften des menschlichen Gehörsystems werden ausgenutzt, um nicht wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der Frequenzgehalt des Audiosignals wird mittels einer Filter bank in Teilbänder unterteilt. Die Datenratenreduktion wird erreicht, indem das Spektrum des Zeitsignals gemäß psycho akustischen Modellen quantisiert wird, und dieselbe kann ein verlustloses Codierverfahren umfassen.

Allgemein gesagt wird ein zeitkontinuierliches Audiosignal abgetastet, um ein zeitdiskretes Audiosignal zu erhalten. Das zeitdiskrete Audiosignal wird mittels einer Fenster funktion gefenstert, um aufeinanderfolgende Blöcke oder Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird jeder Block von gefensterten zeitdiskreten Abtastwerten des Audiosignals in den Frequenzbereich transformiert, wobei beispielsweise eine modifizierte diskrete Cosinustransfor mation (MDCT) verwendet werden kann. Die somit erhaltenen Spektralwerte sind noch nicht quantisiert und müssen demnach quantisiert werden. Das Hauptziel dabei besteht darin, die Spektraldaten derart zu quantisieren, daß das Quantisie rungsrauschen durch die quantisierten Signale selbst mas kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard beschriebenes psychoakustisches Modell herangezogen, das unter Berücksichtigung der speziellen Eigenschaften des menschlichen Gehörs abhängig von dem vorliegenden Audiosi gnal Maskierungsschwellen berechnet. Die Spektralwerte wer den nun derart quantisiert, daß das eingeführte Quantisie rungsrauschen versteckt und somit unhörbar wird. Das Quan tisieren führt also zu keinem hörbaren Rauschen.

In dem NBC-Standard wird ein sog. ungleichförmiger Quanti sierer verwendet. Zusätzlich wird ein Verfahren verwendet, um das Quantisierungsrauschen zu formen. Das NBC-Verfahren verwendet wie auch vorhergehende Standards die einzelne Verstärkung von Gruppen von Spektralkoeffizienten, welche als Skalenfaktorbänder bekannt sind. Um so effizient wie möglich zu arbeiten, ist es wünschenswert, in der Lage zu sein, das Quantisierungsrauschen in Einheiten zu formen, die an die Frequenzgruppen des menschlichen Gehörsystems mög lichst angelehnt sind. Es ist somit möglich, Spektralwerte zu gruppieren, welche die Bandbreite der Frequenzgruppen sehr eng wiedergeben. Einzelne Skalenfaktorbänder können mittels Skalenfaktoren in Stufen von 1,5 dB verstärkt werden. Die Rauschformung wird erreicht, da verstärkte Koeffizienten größere Amplituden haben. Daher werden sie im allgemeinen ein höheres Signal/Rausch-Verhältnis nach der Quantisierung zeigen. Andererseits benötigen größere Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung zwischen den Skalenfaktorbändern wird implizit verändert. Selbstverständlich muß die Verstärkung durch die Skalenfak toren im Decodierer korrigiert werden. Aus diesem Grund müs sen die Verstärkungsinformationen, die in den Skalenfaktoren in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei teninformationen zu dem Decodierer übertragen werden.

Nach der Quantisierung der in Skalenfaktorbändern vorliegen den ggf. durch Skalenfaktoren verstärkten Spektralwerte sol len dieselben codiert werden. Das Eingangssignal in ein rauschloses Codiermodul ist somit der Satz von beispiels weise 1024 quantisierten Spektralkoeffizienten. Durch das rauschlose Codiermodul werden die Sätze von 1024 quanti sierten Spektralkoeffizienten in Abschnitten oder "Sections" eingeteilt, derart, daß eine einzige Huffman-Codiertabelle ("Codebook") verwendet wird, um jeden Abschnitt zu codieren. Aus Codiereffizienzgründen können Abschnittsgrenzen nur an Skalenfaktorbandgrenzen vorhanden sein, derart, daß für jeden Abschnitt oder "Section" des Spektrums sowohl die Länge des Abschnitts in Skalenfaktorbändern als auch die Huffman-Codiertabellennummer, die für den Abschnitt ver wendet wird, als Seiteninformationen übertragen werden müssen.

Das Bilden der Abschnitte ist dynamisch und variiert typi scherweise von Block zu Block, derart, daß die Anzahl von Bits, die benötigt werden, um den vollen Satz von quanti sierten Spektralkoeffizienten darzustellen, minimiert wird. Die Huffman-Codierung wird verwendet, um n-Tupel von quan tisierten Koeffizienten darzustellen, wobei der Huffman-Code von einem von 12 Codiertabellen abgeleitet wird. Der maxi male absolute Wert der quantisierten Koeffizienten, der von jeder Huffman-Codiertabelle dargestellt werden kann, und die Anzahl von Koeffizienten in jedem n-Tupel für jede Codierta belle sind a priori festgelegt.

Der Sinn des Bildens der Abschnitte oder Sections besteht also darin, Bereiche mit gleicher Signalstatistik zu grup pieren, um mittels einer einzigen Huffman-Codiertabelle für eine Section einen möglichst hohen Codiergewinn zu errei chen, wobei der Codiergewinn allgemein durch den Quotienten aus Bits vor der Codierung und Bits nach der Codierung de finiert ist. Mittels einer Codiertabellennummer ("Codebook number"), die in der für das NBC-Verfahren verwendeten Bit stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co diertabellen verwiesen, welche für einen speziellen Ab schnitt den höchsten Codiergewinn ermöglicht. Der Ausdruck "Codiertabellennummer", soll in dieser Anmeldung somit den Platz in der Bitstromsyntax bezeichnen, der für die Codier tabellennummer reserviert ist. Um 11 verschiedene Codierta bellennummern binär zu codieren, werden 4 Bit benötigt. Die se 4 Bit müssen für jeden Abschnitt, d. h. für jede Gruppe von Spektralwerten, als Seiteninformationen übertragen wer den, damit der Decodierer zum Decodieren die entsprechende korrekte Codiertabelle auswählen kann.

Eine weitere Technik, die neuerdings Beachtung findet, ist die "Rauschsubstitution", deren Aspekte ausführlich in Do nald Schulz "Improving Audio Codecs by Noise Substitution", Journal of the Audio Eng. Soc., Bd. 44, Nr. 7/8, S. 593-598, Juli/August 1996, beschrieben sind. Wie bereits erwähnt wurde, verwenden herkömmliche Audiocodieralgorithmen übli cherweise Maskierungseffekte des menschlichen Ohrs, um die Datenrate oder die Anzahl von zu übertragenden Bits ent scheidend zu reduzieren. Maskierung bedeutet also, daß eine oder mehrere Frequenzkomponenten als Spektralwerte andere Komponenten mit niedrigeren Pegeln unhörbar machen. Dieser Effekt kann auf zwei Arten und Weisen ausgenutzt werden. Zuerst müssen Audiosignalkomponenten, die durch andere Komponenten maskiert werden, nicht codiert werden. Zweitens ist das Einführen von Rauschen durch die eben beschriebene Quantisierung erlaubt, wenn dieses Rauschen durch Kompo nenten des ursprünglichen Signals verdeckt wird.

Bei rauschhaften Signalen ist das menschliche Gehörsystem nicht in der Lage, den exakten Zeitverlauf eines solchen Signals zu erfassen. Bei üblichen Algorithmen führte dies dazu, daß sogar die Wellenform des weißen Rauschens, welche für das menschliche Gehör nahezu irrelevant ist, codiert wurde. Ein gehörrichtiges Codieren von rauschhaltigen Signalen erfordert daher hohe Bitraten für Informationen, die nicht hörbar sind, wenn keine speziellen Vorkehrungen getroffen werden. Falls jedoch rauschhaltige Komponenten von Signalen erfaßt und mit Informationen über ihre Rauschpegel, über ihren Frequenzbereich oder über ihren zeitlichen Aus dehnungsbereich codiert werden, kann eine solche überflüssi ge Codierung verringert werden, was zu außerordentlich großen Biteinsparungen führen kann. Diese Tatsache wird durch die Psychoakustik untermauert, die besagt, daß der Wahrnehmungseindruck von Rauschsignalen primär von deren spektraler Zusammensetzung und nicht von der tatsächlichen Wellenform bestimmt wird. Dies ermöglicht also die Benutzung der Rauschsubstitutionstechnik bei der Datenreduktion von Audiosignalen.

Der Codierer steht daher vor der Aufgabe, in dem gesamten Spektrum des Audiosignals rauschartige oder rauschhafte Spektralwerte zu finden bzw. zu erkennen. Eine Definition für rauschhafte Spektralwerte lautet wie folgt: Wenn eine Signalkomponente durch ihren Pegel, durch ihren Frequenzbe reich und durch ihren zeitlichen Ausdehnungsbereich derart charakterisiert werden kann, daß sie ohne hörbare Unter schiede für das menschliche Gehörsystem durch ein Rauscher setzungsverfahren rekonstruiert werden kann, wird diese Signalkomponente als Rauschen klassifiziert. Die Erfassung dieser Charakteristik kann entweder im Frequenzbereich oder im Zeitbereich durchgeführt werden, wie es in der zuletzt zitierten Veröffentlichung dargestellt ist. Das einfachste Verfahren besteht beispielsweise darin, tonale, d. h. nicht rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre quenz-Transformation verwendet wird, und indem stationäre Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt werden. Diese Spitzen werden als tonal bezeichnet, alles andere wird als rauschhaft bezeichnet. Dies stellt jedoch eine relativ grobe Rauscherfassung dar. Eine weitere Mög lichkeit, zwischen rauschhaften und tonalen Spektralkom ponenten zu unterscheiden, besteht in der Verwendung eines Prädiktors für Spektralwerte in aufeinanderfolgenden Blöcken. Dabei wird eine Prädiktion von einem Spektrum zu dem folgenden Spektrum, d. h. dem Spektrum, das dem nächsten zeitlichen Block oder Frame zugeordnet ist, durchgeführt. Unterscheidet sich ein prädizierter Spektralwert von einem tatsächlich durch Transformation ermittelten Spektralwert des nächsten zeitlichen Blocks oder Frames nicht oder nur wenig, so wird davon ausgegangen, daß es sich bei diesem Spektralwert um eine tonale Spektralkomponente handelt. Daraus kann ein Tonalitätsmaß µ abgeleitet werden, dessen Wert einer Entscheidung zugrundeliegt, um tonale und rauschhafte Spektralwerte voneinander zu unterscheiden. Dieses Erfas sungsverfahren ist jedoch lediglich für streng stationäre Signale geeignet. Es versagt dabei, Situationen zu erfassen, bei denen Sinussignale mit gering veränderten Frequenzen über der Zeit vorhanden sind. Solche Signale erscheinen oft in Audiosignalen, wie z. B. Vibratos, und es ist für den Fachmann offensichtlich, daß diese nicht durch eine rausch hafte Komponente ersetzt werden können.

Eine weitere Möglichkeit zur Erfassung von rauschhaften Signalen besteht in der Rauscherfassung durch Prädiktion im Zeitbereich. Hierfür eignet sich ein angepaßtes Filter als Prädiktor, welcher wiederholt angewendet werden kann, um eine lineare Prädiktion durchzuführen, wie es in der Technik hinreichend bekannt ist. Vergangene Audiosignale werden ein gespeist und das Ausgangssignal wird mit dem tatsächlichen Audioabtastwert verglichen. Im Fall eines kleinen Prädikti onsfehlers kann Tonalität angenommen werden. Um den Charak ter unterschiedlicher Frequenzregionen zu bestimmen, d. h. um den Spektralbereich zu erfassen, ob eine Gruppe von Spek tralwerten eine rauschhafte Gruppe ist, müssen Zeit-Fre quenz-Transformationen sowohl des ursprünglichen als auch des prädizierten Signals durchgeführt werden. Dann kann für jede Frequenzgruppe ein Tonalitätsmaß berechnet werden, in dem die ursprünglichen und die prädizierten Werte mit einander verglichen werden. Ein Hauptproblem dabei ist der begrenzte dynamische Bereich des Prädiktors. Eine rausch hafte Frequenzgruppe mit einem hohen Pegel dominiert den Prädiktor aufgrund des resultierenden großen Fehlers. Andere Frequenzregionen mit tonalen Komponenten könnten als rausch haft interpretiert werden. Dieses Problem kann durch Verwen dung eines iterativen Algorithmus verringert werden, bei dem das Fehlersignal normalerweise einen geringeren Pegel als das Ursprungssignal hat und wieder durch einen weiteren Prä diktor eingespeist wird, wonach beide prädizierten Signale addiert werden. Weitere Verfahren sind in der Veröffentli chung von Schulz ausgeführt.

Die nun als rauschhaft klassifizierte Gruppe von Spektral werten wird nicht wie üblich quantisiert und Entropie- bzw. Redundanz-codiert (mittels beispielsweise einer Huffman-Ta belle) zum Empfänger übertragen. Statt dessen wird nur eine Kennung zur Anzeige der Rauschsubstitution sowie ein Maß für die Energie der rauschhaften Gruppe von Spektralwerten als Seiteninformationen übertragen. Im Empfänger werden dann für die substituierten Koeffizienten Zufallswerte (Rauschen) mit der übertragenen Energie eingesetzt. Die rauschhaften Spek tralwerte werden also durch Zufallsspektralwerte mit ent sprechendem Energiemaß substituiert.

Durch die Übertragung einer einzigen Energieinformation an stelle einer Gruppe von Codes, d. h. mehrerer quantisierter und codierter Spektralwerte, für die quantisierten Spektral koeffizienten sind erhebliche Dateneinsparungen möglich. Es ist offensichtlich, daß die erreichbaren Datenrateneinspa rungen vom Signal abhängen. Handelt es sich z. B. um ein Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen rauschhaften Gruppen, oder mit transienten Eigenschaften, so wird eine geringere Datenrateneinsparung möglich sein, als wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf ten Gruppen codiert wird.

Der eingangs beschriebene Standard MPEG-2 Advanced Audio Coding (AAC) unterstützt die Möglichkeit der Rauschsubsti tution nicht. Die erheblichen Datenrateneinsparungen sind mit dem bisherigen Standard daher nicht möglich.

Die Aufgabe der vorliegenden Erfindung besteht darin, den bestehenden Standard MPEG-2 AAC um die Möglichkeiten der Rauschsubstitution derart zu erweitern, daß weder die grund sätzliche Codiererstruktur noch die Struktur der vorhandenen Bitstromsyntax angetastet wird.

Diese Aufgabe wird durch ein Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals gemäß Anspruch 1, durch ein Verfahren zum Codieren eines Audiosignals gemäß Anspruch 10 und durch ein Verfahren zum Decodieren eines Audiosignals gemäß Anspruch 11 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß im Falle der Durchführung einer Rauschsubstitution für ein rauschhaftes Band keine Quantisierung und Redundanz- Codierung oder Huffman-Codierung von Spektralwerten durch geführt werden braucht. Statt dessen werden, wie es bereits beschrieben wurde, im Decodierer Rausch-Spektralwerte für eine rauschhafte Gruppe erzeugt, deren Maß für die Energie dem Maß für die Energie der Rausch-substituierten Spektral werte entspricht. In anderen Worten werden für rauschhafte Gruppen keine Codiertabellen verwendet, da keine Redun danz-Codierung stattfindet. Somit ist auch die Codier tabellennummer, d. h. der entsprechende Platz in der Bit stromsyntax des codierten Audiosignals, überflüssig. Dieser Platz der Bitstromsyntax, d. h. die Codiertabellennummer, kann nun gemäß der vorliegenden Erfindung dazu verwendet werden, anzuzeigen, daß eine Gruppe rauschhaft ist und einer Rauschsubstitution unterzogen wird. Da, wie es ebenfalls erwähnt wurde, lediglich 12 Codiertabellen vorgesehen werden, der Platz in der Bitstromsyntax jedoch 4 Bit beträgt, mit denen insgesamt ein Zahlenbereich von 0-15 binär dargestellt werden kann, existieren sog. zusätzliche Codiertabellennummern, die auf keine Codiertabelle verwei sen. Lediglich die Codiertabellennummern 0-11 verweisen auf eine Codiertabellennummer. Bei einem bevorzugten Aus führungsbeispiel der vorliegenden Erfindung wird die Co diertabellennummer 13 verwendet, um dem Decodierer zu si gnalisieren, daß die Gruppe, die in ihren Seiteninforma tionen die Codiertabellennummer 13, d. h. die zusätzliche Codiertabellennummer, aufweist, eine rauschhafte Gruppe ist und einer Rauschsubstitution unterzogen worden ist. Für Fachleute ist es jedoch offensichtlich, daß auch die zu sätzliche oder freie Codiertabellennummer 12, 14 oder 15 eingesetzt werden kann.

Wie es bereits weiter vorne dargestellt wurde, können die Spektralwerte, die nach einer Frequenzbereichstransformation des zeitlichen Audiosignals vorhanden sind, in Skalenfaktor bänder gruppiert werden, um eine optimale Maskierung des Quantisierungsrauschens zu erreichen. Bei dem Standard MPEG-2 AAC sind zusätzlich mehrere Skalenfaktorbänder in Abschnitte oder "Sections" gruppiert. Eine Section besteht daher zumeist aus mehreren Skalenfaktorbändern. Das heißt, daß eine Rauschsubstitution immer für eine ganze Section signalisiert wird, d. h. ob die Rauschsubstitution aktiv oder nicht aktiv ist. Aufgrund der Tatsache, daß die rausch haften Skalenfaktorbänder nicht quantisiert werden, müssen auch keine Skalenfaktoren für dieselben berechnet oder übertragen bzw. codiert werden. Das heißt, daß zusätzlich zu der Codiertabellennummer, welche die Rauschsubstitution an sich anzeigt, eine weitere Stelle im Bitstrom frei ist, welche anderweitig besetzt werden kann. Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird an die Stelle, die für den Skalenfaktor in den Seiteninformationen zu einem Skalenfaktorband vorgesehen ist, ein Maß für die Energie der ersetzten Spektralkoeffizienten geschrieben. Wie es bereits erwähnt wurde, hängt die Wahrnehmung von Rausch signalen primär von deren spektraler Zusammensetzung und nicht von deren tatsächlicher Wellenform ab. Aus den Spek tralwerten eines rauschhaften Skalenfaktorbandes wird somit ein Maß für die Energie der Spektralwerte in dem rauschhaf ten Skalenfaktorband berechnet. Diese Größe wird anstelle des Skalenfaktorbandes in die Seiteninformationen einge tragen, ohne daß zusätzliche Seiteninformationen benötigt werden oder die Struktur der Bitstromsyntax verändert werden muß. Diese zu übertragende Größe kann entweder die Gesamt energie der Spektralwerte in einem rauschhaften Skalenfak torband sein oder die mittlere Energie, die beispielsweise auf einen Spektralwert oder eine Spektrallinie in dem Ska lenfaktorband normiert ist. Bei dem bevorzugten Ausfüh rungsbeispiel der vorliegenden Erfindung wird jedoch nicht die mittlere Energie sondern die Gesamtenergie als Maß für die Energie verwendet.

Für die Übertragung des Maßes für die Energie der ersetzten Spektralwerte wird vorzugsweise die gleiche Auflösung ver wendet, wie sie zur inversen Skalierung der übertragenen spektralen Daten verwendet wird, d. h. eine logarithmische Skalierung mit einer Auflösung von 1,5 dB beim AAC-Standard. Ähnlich wie beim Layer-III-Verfahren wird beim AAC-Verfahren zur Rekonstruktion der nicht-rauschhaften, d. h. tonalen, Spektralanteile a) die inverse Kennlinie des nichtlinearen Quantisierers auf den quantisierten Wert (X) der Spektralli nie angewendet (Y = X^4/3), und dann b) eine "inverse Skalie rung" entsprechend der übertragenen Skalenfaktoren durchge führt. (Z = Y x 2^(SF/4)), wobei SF der Skalenfaktor des je weiligen Skalenfaktorbandes ist, und wobei Z den requanti sierten Spektralwert darstellt. Die Auflösung beträgt somit 1,5 dB.

Bei dem Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals gemäß der vorliegenden Erfindung, bei dem für ein rauschhaftes Skalenfaktorband kein Skalenfaktor benötigt wird, sondern statt dessen das Maß für die Energie der substituierten Spektralwerte eingesetzt wird, werden die selben Codiergesetze für das Maß für die Energie der substituierten Spektralwerte eingesetzt wie sie sonst beim Skalenfaktor zur Anwendung kommen würden. Dies stellt eine vorteilhafte Nutzung bereits vorhandener Resour cen im AAC-Codierer dar und erfordert keinerlei zusätzliche Seiteninformationen.

Eine weitere vorteilhafte Anwendung der Signalisierung der Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das menschliche Ohr ist in der Lage, eine Korrelation zwischen den Signalen bzw. Kanälen (L und R) eines Stereokanalpaars, welches bei AAC als "Channel Pair" bezeichnet wird, bis zu einem gewissen Grad wahrzunehmen. Daher sollte auch im Falle einer Rauschsubstitution die Korrelation zwischen den beiden ersetzten bzw. substituierten Rauschsignalen des Kanalpaars ähnlich zu der des Originalsignals sein. Skalenfaktorbänder im linken und im rechten Kanal, welche die gleiche Mitten frequenz haben, können beide rauschsubstituiert werden, wenn eine Rauschhaftigkeit erkannt wird. Werden beide Kanäle rauschsubstituiert, und werden keine weiteren Vorkehrungen getroffen, so haben die im Codierer zufällig erzeugten Rausch-Spektralwerte zwar die gleiche Gesamtenergie wie im ursprünglichen Audiosignal, dieselben sind jedoch aufgrund des zufälligen Erzeugens völlig unkorreliert. Dies kann unter bestimmten Umständen zu hörbaren Fehlern führen. Um dies zu vermeiden ist es möglich, die selben zufällig er zeugten Rausch-Spektralwerte eines Skalenfaktorbandes für beide Kanäle zu verwenden, was einer vollständigen Korrela tion der rauschhaften Skalenfaktorbänder des linken und rechten Kanals entspricht.

Dabei wird gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung folgendermaßen vorgegangen: Für jedes Kanalpaar existiert im AAC-Standard eine sog. Mitte/Seite- Maske (M/S-Maske), welche im Standard selbst als "ms used" (= ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein Bitvektor, der bandweise anzeigt, ob zwischen den beiden Kanälen eine M/S-Stereocodierung angewendet worden ist, welche für Fachleute bekannt ist und einführend in J.D. Johnston, A.J. Ferreira: "Sum-Difference Stereo Transform Coding", IEEE ICASSP 1992, S. 569-571, und auch im MPEG- AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei ner Anzahl von Bits, wobei jedes Bit einem Skalenfaktorband zugeordnet ist. Wird in einem Skalenfaktorband eine M/S-Co dierung verwendet, so wird ein Signalisierungsbit in der M/S-Maske in den Seiteninformationen gesetzt sein, das die M/S-Codierung dem Decodierer mitteilt. Wird jedoch ein rauschhaftes Skalenfaktorband im linken sowie im rechten Kanal für die gleiche Mittenfrequenz der Skalenfaktorbänder (für L und für R) erkannt, so findet selbstverständlich keine Mitte/Seite-Codierung statt. Das M/S-Bit für dieses Skalenfaktorband steht also ebenso wie die Codiertabellen nummer und der Skalenfaktor in dem Bitstrom entsprechend der Bitstromsyntax zur Verfügung, um etwas anderes zu signali sieren. In diesem Fall kann das Bit der M/S-Maske für das rauschhafte Skalenfaktorband beider Kanäle verwendet werden, um anzuzeigen, ob für den linken und rechten Kanal unabhän gige Rausch-Spektralwerte oder Rauschvektoren erzeugt werden sollen, was dem Normalfall entsprechen würde, oder ob der gleiche Rauschvektor für sowohl den linken als auch rechten Kanal in dem rauschhaften Skalenfaktorband verwendet werden soll.

Wie es für Fachleute bekannt ist, können bei nichtrausch haften Skalenfaktorbändern die Skalenfaktoren mittels einer Differenzcodierung codiert werden. Für einen entsprechenden Skalenfaktor in einem folgenden Skalenfaktorband muß nicht wieder der gesamte Wert des Skalenfaktors codiert werden, sondern lediglich die Differenz desselben vom vorhergehen den. Dies wird als Differenzcodierung bezeichnet. Diese Differenzcodierung wird bei einem bevorzugten Ausführungs beispiel der vorliegenden Erfindung ebenfalls zum Codieren des Maßes für die Energie der Spektralanteile in einem rauschhaften Skalenfaktorband verwendet. Damit muß für ein folgendes Skalenfaktorband nicht wieder das gesamte Maß der Energie sondern lediglich die Differenz des aktuellen vom vorhergehenden codiert werden, was wiederum zu Biteinsparun gen Anlaß gibt. Selbstverständlich muß immer ein erster Aus gangswert vorhanden sein, der jedoch auch ein fester von vorneherein vorgegebener Wert sein kann. Dieses Verfahren der Differenzcodierung wird daher besonders vorteilhaft sein, wenn aufeinanderfolgende Skalenfaktorbänder Frames rauschhaft sind.

Claims

1. Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals, mit folgenden Schrit ten:
Transformieren eines zeitlichen Audiosignals in den Fre quenzbereich, um Spektralwerte zu erhalten;
Gruppieren der Spektralwerte in Gruppen von Spektralwer ten;
Erfassen, ob eine Gruppe von Spektralwerten eine rausch hafte Gruppe ist;
falls eine Gruppe nicht rauschhaft ist, Zuweisen einer Codiertabelle aus einer Mehrzahl von Codiertabellen zum Redundanzcodieren der nicht rauschhaften Gruppe, wobei mittels einer Codiertabellennummer auf die der Gruppe zugewiesene Codiertabelle verwiesen wird; und
falls eine Gruppe rauschhaft ist, Zuweisen einer zusätz lichen Codiertabellennummer, die nicht auf eine Codier tabelle verweist, zu dieser Gruppe, um zu signalisieren, daß diese Gruppe rauschhaft ist und daher nicht redun danz-codiert wird.

2. Verfahren nach Anspruch 1, bei dem die Gruppen von Spek tralwerten Abschnitte (Sections) sind, wobei eine Co diertabellennummer für nicht rauschhafte Abschnitte und eine zusätzlich Codiertabellennummer für rauschhafte Ab schnitte vergeben werden.

3. Verfahren nach Anspruch 2, bei dem ein Abschnitt eines oder mehrere Skalenfaktor bänder aufweist, wobei jedem Skalenfaktorband ein Ska lenfaktor zugeordnet ist; und bei dem im Falle eines rauschhaften Skalenfaktorbandes ein Maß für die Energie der Spektralwerte in dem rausch haften Skalenfaktorband anstelle eines Skalenfaktors co diert wird.

4. Verfahren nach Anspruch 3, bei dem das Maß für die Ener gie der Spektralwerte in einer rauschhaften Gruppe die auf einen Referenzwert normierte mittlere Energie der selben in einem Skalenfaktorband ist.

5. Verfahren nach Anspruch 3, bei dem das Maß für die Ener gie die Gesamtenergie der Spektralwerte in dem rausch haften Skalenfaktorband ist.

6. Verfahren nach Anspruch 3 oder 4, bei dem zum Codieren des Maßes für die Energie der rauschhaften Spektralwerte in dem Skalenfaktorband die selbe Skalierung verwendet wird, die üblicherweise zum Codieren eines Skalenfaktors eines Skalenfaktorbandes verwendet wird, das kein rauschhaftes Skalenfaktorband ist.

7. Verfahren nach einem der Ansprüche 3-6, bei dem die Codierung des Maßes für die Energie der Spektralwerte in rauschhaften Skalenfaktorbändern eine Differenzcodierung ist.

8. Verfahren nach einem der Ansprüche 1-7,
bei dem das Audiosignal ein Stereoaudiosignal ist,
bei dem eine Mitte/Seite-Codierung zweier Kanäle des Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen weise anzeigbar ist, und
bei dem im Fall von frequenzmäßigen entsprechenden rauschhaften Gruppen beider Kanäle durch die Mitte/Sei te-Maske anzeigbar ist, ob unterschiedliche oder gleiche Rausch-Spektralwerte für beide Kanäle beim Decodieren eines decodierten Audiosignals zu verwenden sind.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erfassen, ob eine Gruppe von Spektralwerten eine rauschhafte Gruppe ist, mittels des zeitlichen Audiosi gnals oder mittels der Spektralwerte des zeitlichen Au diosignals oder mittels sowohl des zeitlichen Audiosi gnals als auch der Spektralwerte des zeitlichen Audio signals durchgeführt wird.

10. Verfahren zum Codieren eines Audiosignals mit folgenden Schritten:
Signalisieren einer Rauschsubstitution nach einem der Ansprüche 1-9;
Berechnen eines Maßes für die Energie einer rauschhaften Gruppe;
Eintragen des Maßes für die Energie in der Gruppe zuge ordnete Seiteninformationen;
Eintragen der zusätzlichen Codiertabellennummer in die der Gruppe zugeordneten Seiteninformationen;
Quantisieren der nichtrauschhaften Gruppen und Codieren der quantisierten nichtrauschhaften Gruppen unter Ver wendung der Codiertabelle, auf die durch die Codier tabellennummer verwiesen wird, während für rauschhafte Gruppen keine Quantisierung oder Codierung stattfindet; und
Bilden eines Bitstroms, der quantisierte und codierte nichtrauschhafte Gruppen sowie für rauschhafte Gruppen ein Maß für die Energie der Spektralwerte der rausch haften Gruppen und die zusätzliche Codiertabellennummer zur Signalisierung der rauschhaften Gruppen aufweist.

11. Verfahren zum Decodieren eines codierten Audiosignals mit folgenden Schritten:
Empfangen eines Bitstroms;
Redundanz-Decodieren von nichtrauschhaften Gruppen auf grund einer durch eine Codiertabellennummer angezeigten Codiertabelle und Requantisieren von redundanz-decodier ten, quantisierten Spektralwerte;
Erfassen einer rauschhaften Gruppe von Spektralwerten aufgrund einer zusätzlichen Codiertabellennummer, die einer solchen Gruppe zugeordnet ist;
Erfassen eines Maßes für die Energie der Spektralwerte in der rauschhaften Gruppe aufgrund von der Gruppe zu geordneten Seiteninformationen;
Erzeugen von Rausch-Spektralwerten für die rauschhafte Gruppe, wobei das Maß der Energie der Rausch-Spektral werte in der rauschhaften Gruppe gleich dem Maß für die Energie von Spektralwerten der rauschhaften Gruppe in dem ursprünglichen Signal ist;
Transformieren der requantisierten Spektralwerte und der Rausch-Spektralwerte in den Zeitbereich, um ein deco diertes Audiosignal zu erhalten.

12. Verfahren gemäß Anspruch 11, bei dem das Erzeugen der Rausch-Spektralwerte durch Erzeugen von Zufallszahlen oder durch Erhalten derselben aus einer Tabelle statt findet, wobei die addierte Energie der Rausch-Spektral werte dem Maß der Energie der Spektralwerte der rausch haften Gruppe des ursprünglichen Audiosignals ent spricht.

13. Verfahren nach Anspruch 11 oder 12, das ferner folgende Schritte aufweist:
Erfassen einer Mitte/Seite-Maske für Stereoaudiosignale;
aufgrund der Mitte/Seite-Maske für Stereoaudiosignale, Verwenden identischer Rausch-Spektralwerte für entspre chende rauschhafte Gruppen beider Kanäle, oder Erzeugen zweier unabhängiger Gruppen von Rausch-Spektralwerten für bei Kanäle.