Digitale Audiocodierung: Die Datenreduktion

Seit Einführung der Audio Compact Disc (CD) und dem Aufkommen des Digital Audio Tapes (DAT) hat sich im Audiobereich digitale Technik zunehmend durchgesetzt. Als grundlegendes Digitalisierungsverfahren verwenden sowohl die CD als auch DAT die Pulse Code Modulation (PCM). Diese Technik übersetzt das analoge Originaltonsignal über Sampling, Quantisierung und Codierung in die digitale Welt. Da PCM keine Datenreduktion verwendet, erreicht man hervorragende Klangqualität - allerdings wird sie mit hohem Speicherbedarf erkauft. Auf eine CD passen in PCM maximal 80 Minuten an Audiodaten.

 

Warum Audiodaten reduzieren?

Gerade der hohe Speicherbedarf von PCM machte einen direkten Einsatz dieser Technik in digitalen Rundfunk- oder Multimediasystemen ineffizient, aufwendig oder unmöglich. Diese Systeme erfordern eine radikale Schlankheitskur der Audiosignale. Der Grund hierfür sind mangelnde Übertragungskapazitäten im Rundfunk, die begrenzte Transferrate heutiger Bussysteme (PCI, IDE, SCSI)und vor allem immernoch Mangel an Speicherplatz. Dabei ist nicht nur Festplattenplatz knapp,auch der Arbeitsspeicher in heutigen PC-Systemen bietet nur unzureichende Reserven, um eine vernünftige Arbeit mit PCM-Audiodaten zu ermöglichen. Bedenkt man, dass ein 6 minütiges Musikstück in PCM bis zu 60 MByte an Speicher benötigt (WAV-Datei), so lässt sich leicht vorstellen, dass die Übertragung dieses Stückes beispielsweise via Internet alles andere als rentabel ist, ganz zu schweigen von mehrstündigen klassischen Werken. Extrem lange Downloadzeiten wären die Folge.

Auf der anderen Seite besitzt die digitale gegenüber der analogen Technik unschlagbare Vorteile. Sehr gute Klangqualität, Störsicherheit und relativ leichte technische Handhabbarkeit waren Gründe genug für diverse Forschungseinrichtungen in den letzten Jahren verstärkt Verfahren zu entwickeln, mit denen eine Reduzierung des Speicherbedarfs digitaler Audiosignale und damit deren Einsatz in neuen Bereichen wie digitalem Rundfunk ermöglicht wurde. Vorrangiges Ziel war dabei der Erhalt der Klangqualität, wobei die CD als Referenz diente. Herausgekommen sind eine ganze Reihe von Codecs, die zum Teil eine beträchtliche Menge an Daten einsparen. Derzeit dürfte wohl der im Internet weit verbreitete MP3-Codec, entwickelt von der Motion Pictures Expert Group (MPEG) am bekanntesten sein, aber auch MPEG 2, AC-3, ATRAC und andere gehören zu den bekannten Techniken der digitalen Audiocodierung.

Die Höhe des Speicherbedarfs eines digitalen Audiosignals wird in erster Linie durch die Bitrate und die Samplingratebestimmt. Beide Parameter können während der Encodierung des Signals angepasst werden. Im folgenden Abschnitt sollen die Auswirkungen einer Veränderung der Sampling- und der Bitrate bei der Verarbeitung von Signalen näher untersucht werden.
 

Speicherbedarf in Abhängigkeit von Sampling- und Bitrate

Um ein analoges Signal in sein digitales Equivalent umzuformen, muss die Originalfunktion abgetastet werden. Der Abtastvorgang wird auch als Sampling bezeichnet. Die genauen Zusammenhänge von Sampling, Quantisierung und Codierung finden Sie inunserem Artikel "Digitale Datenspeicherung und Herstellung der Audio-Compact Disk" zu finden im Technik Bereich auf unserer Homepage http://www.burosch.de

 

niedriges und hohes Sampling

 

Das Sampling muss nach dem Abtasttheorem von Shannon mindestens mit der doppelten Maximalfrequenz der zu diskretisierenden Funktion erfolgen. Im Audiobereich, in dem 20kHz die obere Grenze darstellen, sind also mindestens 40kHz erforderlich. Bei der CD werden um Aliasingeffekte zuvermeiden 44,1kHz verwendet. Zur Datenreduktion kann Sampling ausgenützt werden. Verringert man die Samplingfrequenz, so erhält manweniger Abtastwerte, die zu speichern sind. Klar, dass auf diese Weise der Speicherbedarf drastisch sinkt. Leider hat diese Taktik einen gewaltigen Haken. Vermindert man die Samplingrate, so kann man leicht in Konflikt mit dem Abtasttheorem kommen. Wollte man ein Audiosignal mit vollem Frequenzumfang (20Hz - 20kHz) mit beispielsweise nur 20kHz abtasten, so käme es zu extremen Aliasingverzerrungen. Die Musikwiedergabe wäre völlig unmöglich. Trotzdem ist Sampling bisweilen eine Möglichkeit die Datenrate zu reduzieren. Ist beispielsweise nur Sprachverständlichkeit gewünscht, ohne dass hochwertige Musikwiedergabeerfolgen soll, so sind 20kHz an Frequenzumfang unnötig. Als obere Grenzfrequenz sind 3kHz ausreichend. Hier kann das Audiosignal mit Hilfe eines Tiefpasses auf 3kHz bandbegrenzt und die Samplingrate auf minimal 6kHz gesenkt werden. Ein möglicher Einsatz derartig niedriger Samplingraten wären beispielsweise Telefonanwendungen.

 

Niedrige und Hohe Quantisierung

 

Die zweite Möglichkeit digitale Audiodaten mit geringem Speicherbedarf zu encodieren ist die Verwendung einer niedrigen Bitrate. Durch Sampling und Quantisierung erhält man diskrete Werte des analogen Originalsignals. Während das Sampling das Original im Zeitbereich diskretisiert, bewirkt die Quantisierung die Beschränkung der zu den Abtastzeitpunkten gemessenen Spannungswerte auf eine festgelegte Anzahl von Werten. Wird per Sampling zu einem bestimmten Zeitpunkt ein Spannungswert gemessen, so wird dieser Spannungswert bei der Quantisierung auf den nächstgelegenen verfügbaren Wert gerundet. Gibt es nun wenige Werte, auf die gerundet werden kann, so entstehen nur wenige unterschiedliche digitale Werte zur Beschreibung der analogen Originalfunktion.Es genügt also eine Hand voll Bits, um diese Werte binär zu encodieren.

Allerdings wird die Originalfunktion mit wenigen Quantisierungswerten nur unzureichend angenähert. Durch die starke Rundung der gemessenen Spannungswerte enstehen Rundungsfehler, die bei leisen Musikpassagen hörbar werden können. Die auftretenden Geräusche werden auch als Quantisierungsrauschen bezeichnet. Es existieren aber weite Frequenzbereiche, die gefahrlos mit weniger Daten abgespeichert werden können. Diese Bereiche werden dabei in erster Linie durch die Empfindlichkeit des menschlichen Ohres bestimmt. Genaueres erfahren Sie im nächsten Abschnitt.

 

Das menschliche Gehör - ein Ansatz zur Audiodatenkompression

Durch medizinische und physikalische Untersuchungen am menschlichen Gehör und der Geräuschverarbeitung im Gehirnkonnte herausgefunden werden, dass der Hörapparat durchaus seine Wahrnehmeigenheiten hat. Unter bestimmten Umständen werden Töne vom Gehirn garnicht oder nur teilweise registriert. Viele Signalanteile, die im akustischen Signal vorliegen, werden vom Menschen garnicht wahrgenommen. Die sogenannte Psychoakustik beschäftigt sich mit der Erforschung dieser Sachverhalte. Folgende Defizite hat man bisher in der Wahrnehmung des menschlichen Ohres entdeckt:

 

Hörkurve des menschlichen Ohres
  • Wahrnehmbarkeitsbereich des Gehöres:
    Wellen können über einen breiten Frequenzbereich abgestrahlt werden. Das menschliche Gehör kann allerdings nur einen kleinen Ausschnitt aus diesem Frequenzumfang, den Tonfrequenzbereich, wirklich wahrnehmen. Theoretisch kann der Mensch Töne mit Frequenzen zwischen etwa 20Hz und 20kHz hören. In der Praxis allerdings zeigt sich, dass die Empfindlichkeit des Ohres zu tiefen und hohen Frequenzen hin beträchtlich abnimmt. Im obigen Bild ist die Amplitude, also der Schalldruck, über der Frequenz aufgetragen. Messungen haben ergeben, dass alle Signale, die komplett unterhalb der Ruhehörschwelle (rote Linie) liegen unhörbar sind. Die Amplitude dieser Töne (im Bild grüne Peaks) ist zu gering, sie besitzen also eine zu geringe Lautstärke, um wahrgenommen zu werden. Interessant ist zu sehen, dass die Ruhehörschwelle nicht etwa konstant bei einem bestimmten Amplitudenwert liegt, sondern sich mit der Frequenz ändert. Sehr tiefe Töne (kleiner 50Hz) sind erst ab sehr hohen Amplituden wahrnehmbar, genauso wie Töne oberhalb von etwa 15kHz. Zu beachten ist auch, dass nicht jeder Mensch die gleiche Ruhehörschwelle hat. Kinder können hohe Frequenzen wesentlich besser hören als alte Menschen.
     
  • Maskierung (Masking):
    Ein weiteres Defizit des menschlichen Hörapparates ist die Unfähigkeit gleichzeitig auftretende Töne sehr ähnlicher Frequenz und stark unterschiedlicher Lautstärke zu unterscheiden. Dieser Effekt wird auch als auditory masking oder deutsch simultane Maskierung bezeichnet. Ein Signal hoher Amplitude (im Bild oben dunkelblau), auch Maskierer genannt, verdeckt dabei leisere Signale, die eine ähnliche Frequenz aufweisen. Im Bild sind das alle Signale, die sich innerhalb der gelb unterlegten Fläche befinden. Als Beispiel sind einige türkise Peaks eingezeichnet. Die gelbe Fläche wird dabei von der orange gefärbten individuellen Verdeckungsschwelle des Maskierers eingefasst. Individuelle Verdeckungsschwelle und Ruhehörschwelle können zur sogenannten globalen Verdeckungsschwelle zusammengefasst werden. Alle Signale, die sich unterhalb der globalen Verdeckungsschwelle befinden sind demnach unhörbar. In der Praxis bedeutet auditory Masking nichts anderes, als dass laute Musiksignale leise Anteile überdecken und diese so unhörbar machen.
    Ein weiterer Maskierungseffekt tritt ein, wenn zwei Töne in sehr kurzem zeitlichem Abstand aufeinander folgen. Von diesen beiden Tönen wird nur der mit höherer Amplitude, also größerer Lautstärke wahrgenommen. Auch wenn der leise Ton das Ohr zeitlich zuerst erreicht wird interessanterweise trotzdem nur das laute später eintreffende Signal im Gehirn registriert. Diesen zweiten wichtigen Maskierungseffekt bezeichnet man im Fachjargon auch mit temporal masking (zeitliche Maskierung).
     
  • Defizite bei der Lokalisierung tiefer Frequenzen:
    Während das menschliche Gehör den Entstehungsort von Tönen mittlerer und hoher Frequenzen im Raum gut lokalisieren kann, kommt es im Bereich tiefer Frequenzen zu Problemen. Der Ort der Schallquelle wird vom Gehirn aus den Laufzeitunterschieden des Signals zwischen linkem und rechtem Ohr errechnet. Befindet sich rechts eine Schallquelle, so werden Wellen, die von dieser Quelle ausgesendet werden, vom rechten Ohr früher, als vom linken wahrgenommen. Aus dem zeitlichen Abstand der Wahrnehmung von linkem und rechtem Ohr wird dann der Ursprung der Töne berechnet. Schallsignale sehr tiefer Frequenz besitzen jedoch sehr große Wellenlängen, was eine eindeutige Lokalisation unmöglich macht. Daher besteht praktisch kein klanglicher Unterschied zwischen einer Monoschallquelle für Tieftonsignale und einer Stereoschallquelle für Töne sehr niedriger Frequenz. Man bezeichnet dies auch als joint stereo effect. Er wird zum Beispiel beim Bau von Subwoofer Satelliten Systemen ausgenützt und ist auch Ansatzpunkt für die Audiokomprimierung im Bereich tiefer Töne.

Das menschliche Gehör kann also eine ganze Reihe von Frequenzbereichen nur unzureichend oder überhauptnicht wahrnehmen. In der Elektrotechnik beschäftigt sich das Fachgebiet Digitale Signalverarbeitung (digital signal processing, DSP) unter anderem mit mathematischen Verfahren, die in Kombination mit dem psychoakustischen Modell des Hörapparates zur Datenreduktion führen.Solche Verfahren werden unter dem Begriff psychoacustic coding oder perceptual coding zusammengefasst.

 

Spezifische Hörkurve eines MusikstÌckes

 

Mit Hilfe dieser Verfahren wird das Audiosignal analysiert und eine für das jeweilige Musikstück spezifische globale Verdeckungsschwelle aufgestellt (im obigen Bild blau, zum Vergleich die Ruhehörschwelle in rot). Dies wird erreicht durch Vergleichen der vorliegenden Audioinformation mit einem als Referenzverfügbaren mathematischen Modell des menschlichen Ohres. Dieses mathematische Modell berücksichtigt die angesprochenen Defizite inder Wahrnehmung sehr hoher und sehr tiefer Frequenzen ebenso wie durch laute Tonsignale auftretende Maskierungseffekte. Kurz gesagt wird berechnet, welche Audioinformationen innerhalb des Musikstückes vom Zuhörer nicht wahrgenommen werden können. Diese unhörbaren Töne werden je nach Kompressionsstärke mehr oder weniger stark herausgerechnet. Neben der einfachen Löschung unnötiger Informationen passen moderne Codecs auch die momentane Bitrate an das Audiosignal an. In Frequenzbereichen, in denen die globale Hörschwelle hoch liegt (im Bild Bereich I und III), kann mit geringer Bitzahl codiert werden - schließlich kann das Quantisierungsrauschenrelativ hoch ausfallen, ohne wahrgenommen zu werden. An kritischen Stellen, an denen die Verdeckungsschwelle sehr niedrig liegt, kommt das Quantisierungsrauschen bei niedriger Bitrate jedoch gefährlich nahe an an die globale Verdeckungsschwelle oder überschreitet diese sogar. Die globale Verdeckungsschwelle würde in diesem Fall modifiziert, wodurch das Quantisierungsrauschen hörbar wäre. Daher regelt ein vernünftig konstruierter Encoder die Bitrate nur in unktitischen Bereichen herunter. Im folgenden werden kurz einige wichtige mathematische Verfahren der Digitalen Signalverarbeitung skizziert, die bei perceptual coding eine Rolle spielen.

 

Mathematische Methoden zur Datenreduktion:

Die in diesem Abschnitt behandelten mathematischen Verfahren zur Datenreduktion zielen entweder darauf ab Redundanz aus zu komprimierenden Daten zu entfernen, d.h. sich wiederholende Anteile so umzuschichten, dass sie nur einmal abgespeichert werden müssen, oder dienen der Entfernung von nach dem psychoakustischen Modell überflüssigen Daten.Man unterscheidet grundlegend in verlustfreie und verlustbehaftete Techniken. Dabei ist zu erwähnen, dass die verlustfreien Techniken nur unter bestimmten Bedingungenzu einer Datenverringerung führen. Oft ist der Kompressionsgewinn durch diese Verfahren eher beschränkt. Der Vorteilder verlustfreien Techniken liegt aber ganz klar darin, dass sie die Qualität des Originals nicht verändern.

  • Lauflängencodierung (Run-Length-Encoding):
    Die Lauflängencodierung ist eine verlustfreie Codierungstechnik. Das Prinzip ist recht einfach: ein Zeichen, das mehrfach hintereinander auftritt, wird nur einmal abgespeichert.Zusätzlich wird die Anzahl dieses Zeichens festgehalten. Dazu folgendes Beispiel:
    Original: AABBBBBBBCCCCAAADDEBBBCCCCCCC Codiert: AA7B4C3ADDE3B7C
    Wie man leicht sieht hat diese Codierung nur dann Sinn, wenn die Anzahl des Zeichens größer zwei ist.Erst dann benötigt das Abspeichern der Zahl für die Anzahl des Symbols und des einzelnen Symbols selbst weniger Speicher, als das Symbolmehrmals abzuspeichern. Soll eine Folge von Zahlen und Zeichen kodiert werden, so ist es sinnvoll ein sogenanntes Escape-Element einzuführen. Dieses Element verhindert, dass Zahlen, die die Wiederholungslänge eines Symbols angeben, versehentlich als zum zu codierenden Text gehörig interpretiert werden.Dazu folgendes Beispiel mit "&" als Escape-Zeichen:
    Original: AAA6669BBBB Codierung (fehlerhaft): 3A3694B Codierung (korrekt): &3A&369&4B
    Allerdings erhöht das Escape-Zeichen den Speicherbedarf des Algorithmus erneut. Drei aufeinander folgende Symbolezu codieren (wie oben geschehen) ist dann ebenfalls unsinnig. Erst bei 4 Wiederholungen führt der Algorithmus tatsächlich zu einer Reduzierung desSpeicherbedarfs. Die Lauflängenkodierung hat daher nur Sinn, wenn Zeichenfolgen codiert werden sollen,deren Inhalt sich selten ändert. Bei Zeichenfolgen, die aus laufend wechselnden Symbolen bestehen, ist derAlgorithmus dagegen sinnlos. Daher wird Lauflängenkodierung nur zur Komprimierung von Binärdateien (hier kommen alsSymbole nur 0 und 1 vor) und Grafikdateien verwendet. Da digitale Audiodaten in der Binärdarstellung gesichert werden,spielt die Lauflängenkodierung in der Audiodatenkompression eine Rolle.
     
  • Huffman-Codierung:
    Die Huffman-Codierung beschreibt einen anderen verlustfreien Weg den Speicherbedarf von gegebenenDaten zu komprimieren. Es handelt sich dabei um einen sogenannten variable-length code, also einen Code,in dem der Speicherbedarf für jedes Zeichen variert werden kann. Ein Beispiel für einen Codierungscode konstanter Länge ist der ASCII-Code. Hier wird jedem verfügbaren Zeichen ein fester Bitwert zugeordnet (8 Bit pro Zeichen). Jedes Zeichen verbraucht so gleich viel Speicherplatz. Der Vorteil eines Codes variabler Länge besteht nun darin, dass in den zu codierenden Daten häufig vorkommende Zeichen so codiert werden können, dass sie wenig Speicherbedarf besitzen und Zeichen, die selten vorkommen, mehr Speicher zugewiesen bekommen. Über die gesamte zu codierende Datei gesehen kommt es so zu einer Reduktion der Daten.

    Allerdings muss zunächst ermittelt werden, mit welcher Häufigkeit die einzelnen Symbole im vorliegenden Datenstrang vorkommen. Eine Möglichkeit besteht darin die einzelnen Daten nach einer vorgegebenen Häufigkeitsstatistik zu codieren. Beispielsweise könnte ein deutscher Text nach diesem Verfahren codiert werden, wenn feststeht, wie häufig die einzelnen Buchstaben im Mittel in der deutschen Sprache vorkommen. Das Problem bei dieser Art der Häufigkeitsermittlung ist, dass in der Praxis Abweichungen vom nach der Statistik erwarteten Vorkommen auftreten. Dies kann zu einer gewinnlosen Codierung führen, wenn die Datenmengevor dem Codierungsprozess und danach konstant bleibt, oder der Algorithmus führt im Extremfall (falsche Statistik) sogar dazu, dass nach der Codierung der Speicherbedarf größer geworden ist. Für die Codierung von unbekannten Informationen, wie sie beispielsweise bei Audiosignalen vorliegen, ist dieser Weg der Häufigkeitsermittlung der einzelnen Symbole gänzlich unmöglich. Hier mussein anderer Weg eingeschlagen werden.

    Dieser Weg besteht darin, dass der gesamte zu codierende Datenstrang vor der Encodierung einmal durchlaufen und zu jedem Symboldie Anzahl seines Vorkommens bestimmt wird. Auf diese Weise bekommt man eine perfekte Übersicht über die Verteilung der einzelnen Symbole. Häufig auftretende Zeichen werden mit weniger Bitaufwendung also geringerem Speicherbedarf kodiert, als selten erscheinende Symbole.Die Codierung selbst erfolgt dabei mit Hilfe binärer Baumanordnungen (Huffman-Bäume). Der Nachteil dieser Variante besteht allerdings darin, dass zusätzlich zum codierten Datenstrang auch die Art der Codierung zum Decoder übertragen werden muss. Schließlich wird beispielsweise ein M, das in einem 200 Zeichen langen Text A 50 mal vorkommt anders kodiert, als ein M, das in einem gleichlangen Text B nur 3 mal vorkommt. Würden beide codierten Texte über einen Decodierer mit fest eingestelltem Decodieralgorithmus laufen, so würde mindestens ein M falsch decodiert. Daher muss der Decoder für jeden ankommenden Datenstrang über das vom Encoder mitgelieferte Codierschema neu konfiguriert werden. Die Übermittlung des Schemas verschlingt wiederum etwas Speicher, was die Huffman-Codierung ineffizienter macht. Ferner benötigt das Durchlaufen des kompletten Datenstrangs amAnfang Zeit, wodurch der Encodierungsprozess verlangsamt wird.

    Der große Nachteil der Huffman-Codierung besteht darin, dass nur Symbolfolgen sinnvoll codiert werden können, deren Einzelsymbole sehr unterschiedlich oft auftreten. Möchte man einen Datenstrang mit statistisch gleich verteilten Symbolen codieren, so wird der Huffman-Algorithmus kein brauchbares Ergebnis liefern. In der Audiokomprimierung wirddieser Algorithmus beispielsweise bei MP3 eingesetzt, wo er immerhin zu einer maximalen Reduktion von20% der Audiodaten führt.
     
  • Joint Stereo Coding:
    Diese Codierungsvariante existiert speziell für die Datenreduktion von Stereo-Audiosignalen.Bereits bei der Beschreibung des psychoakustischen Modells tauchte der Begriff "Joint Stereo" auf. Dort im Zusammenhang mitder Wahrnehmung tiefer Frequenzen durch das Gehör des Menschen. Joint Stereo Coding geht jedoch weitüber tiefe Frequenzen hinaus. Ziel ist es zwischen den beiden Stereokanälen links und rechts redundante Information herauszurechnen.Innerhalb eines Stereomusikstücks sind viele Informationen für linken und rechten Kanal identisch. Das betrifft insbesondere all diejenigen Daten,die später mittig zwischen zwei Stereolautsprechern erklingen sollen. Diese Signale liegen zum gleichen Zeitpunkt mit identischer Amplitude, Phase und Frequenz in beiden Kanälen vor.Verfolgt man konsequent den Ansatz sich wiederholende Daten zu entfernen, so müssen diese Töne nur einmal abgesichert werden. Diese Aufgabe erledigtdas Joint Stereo Coding und führt dadurch zu niedriger Bitrate bei ordentlicher Qualität.
     
  • Diskrete Kosinustransformation (Discrete Cosine Transform, DCT)
    Die Diskrete Kosinustransformation gehört zu den verlustbehafteten Kompressionstechniken und ist der Fast Fourier Transformation (FFT) nicht unähnlich. Sie übersetzt ein zweidimensionales Raumsignal in ein Frequenzbündel. Die entstehende erste Frequenz des Bündels stellt dabei die wichtigsten Informationen dar, die letzte Frequenz die unwichtigsten. Die DCT dient also dem Auffinden von redundanter und überflüssiger Information. Diese kann dann stark komprimiert und unter geringer Bitaufwendung codiert werden. Verluste entstehen während der Transformationdurch Rundung der erhaltenen Werte. Die Diskrete Kosinustransformation wird heute vor allemein der Bildkomprimierung (z.B. JPEG) verwendet und erreicht dort Kompressionsverhältnisse um 20:1. Der der DCT zu Grunde liegende mathematische Zusammenhang stellt nicht den optimalen Algorithmus zur Datenkompression dar, ist aber im Gegensatz zu perfekten Verfahren (Kahrunnen-Loueve-Transformation)relativ einfach zu implementieren, die Ausführung geht verhältnismäßig schnell und kann in Echtzeit abgearbeitet werden. Auch in der Audiokodierung kommt die "Diskrete Kosinustransformation" zum Einsatz um überflüssige Information aufzufinden, allerdings in einer modifizierten Variante, die dann als Modified DiscreteCosine Transform (MDCT) bezeichnet wird.
     
Schema eines Subband-Encoders
  • Subband Coding (TFT):
    Die Subband Codierung stellt in der digitalen Audiosignalverarbeitung die grundlegende Encodiertechnik dar und ist wie die DCT verlustbehaftet. Subband Codierung wird in Verfahren wieperceptual noise shaping oder perceptual subband coding die zum Beispiel Teil von MPEG Codecs sind verwendet. Im obigen Bild ist in groben Zügen der Aufbau eines Subband-Encodierers dargestellt. Zunächst durchläuft dasAudioeingangssignal eine Analysefilterbank. Diese besteht aus einer bestimmten Anzahl an Bandpassfiltern, die das Eingangssignal X(n)in Frequenzbänder aufspalten. Nach dieser Aufspaltung kann jedes Subband einzeln komprimiert und encodiert werden. Die Komprimierung kann dabei mit einem der oben beschriebenen mathematischen Verfahren erfolgen bzw. durch Kombination der Algorithmen. Die verwendeten Codiertechniken beziehen dabei das psychoakustische Modell des Ohres mit ein. Der Vorteil liegt darin, dass Bänder, die nach dem psychoakustischen Modell unwichtige Daten enthalten, durch Löschen unnötiger Datenwerte (Samples) stark komprimiert und mit geringer Bitrate encodiert werden können. Insbesondere im sehr hohen Frequenzbereich, wo das menschliche Ohrsehr unempfindlich auf klangliche Störungen reagiert, können viele Daten weggerechnet werden, im Extremfall, wenn sehr niedrige Datenraten gewünscht sind, werden einzelne Bänder sogar vollständig eingespart. Im wichtigen mittleren Frequenzbereichen dagegen, in denen das Ohr sehr empfindlich ist, werden mehr Bits und damit mehr Speicher zur Verfügung gestellt. Als letzte Stufe folgt ein Multiplexer, der die einzelnen codierten Subbänder in ein Ausgangssignal Y(n) zusammenfügt.

    Der Vorteil der Aufspaltung in einzelne Frequenzbänder ist, dass die Datenkompressionsverfahren effizienter angreifen können. Würde der gesamte Frequenzbereich auf einen Schub datenreduziert, so könnte die Kompression ohne hörbare Einbußen maximal so hoch ausfallen, wie in denkritischen Bereichen (v.a. Frequenzen zwischen 2kHz und 5kHz) möglich. Das würde aber bedeuten, dass schlechter wahrnehmbare Frequenzabschnitte (mehr als 15kHz und unter 50Hz) mit höherem Speicherbedarf als eigentlich nötig abgespeichert werden müssten. Aus diesem Grund wird der Frequenzraum in einzelne Abschnitte unterteilt und erst anschließend jeder einzelne Bereichkomprimiert und encodiert um maximale Effizienz sicherzustellen.

    Der Decoder für Subband Coding (siehe Bild unten) ist sehr ähnlich aufgebaut wie der Encoder. Zunächst durchläuft der eintreffende Bitstream (Y(n)) einen Demultiplexer, der den Datenstrang wieder in die einzelnen Subbands aufschlüsselt. Anschließend erfolgt eine Decodierungsstufe. Im folgenden Interpolationsfilter werden weggerechnete Samples zum Teil wieder hergestellt, bevor eine Synthese-Filterbank aus den vorliegenden Unterbändern per Summenbildung das Ausgangsignal Z(n) formt.
Decoder fÃŒr Subband-Coding