Hochauflösende Formate für Audio-Dateien

Musikstücke auf HighResAudio.com werden nicht wie auf herkömmlichen Download-Portalen als MP3, AAC oder WMA, sondern ausschließlich in hochauflösenden Formaten angeboten. Zum Repertoire von HighResAudio.com gehören die Formate FLAC, ALAC, DXD und DSD. Jedes dieser Formate ist in der Lage, Klang hochauflösend und ohne Verluste wiederzugeben. Sie ermöglichen Ihnen dadurch im eigenen Wohnzimmer, am PC oder im Fahrzeug eine Klangqualität, die ansonsten professionellen Studios vorbehalten ist.

Dies ist der zweite Teil eines vierteiligen Berichtes zum Thema HighResAudio.com und hochauflösende Audio-Dateien, im Folgenden stellen wir Ihnen einige von HighResAudio.com unterstützte hochauflösende Audio-Formate vor und erklären deren grundsätzliche Funktionsweise.

Da von den durch HighResAudio.com unterstützten Formaten FLAC das bekannteste und am besten unterstützte ist, stellen wir Ihnen das Format im Folgenden detailliert vor und gehen im Anschluss kurz auf ALAC, DXD und DSD ein. Wir erklären Ihnen die grundsätzliche Funktionsweise eines digitalen Audioformats, die Bedeutung hoher Auflösung bei Audioformaten und dessen Auswirkungen auf die Klangqualität. Zu guter Letzt stellen wir Ihnen einige Abspielgeräte vor und erläutern, warum unabhängig von Ihrem Audio-Equipment ein Format wie FLAC, ALAC, DXD und DSD geläufigeren Formaten wie MP3 grundsätzlich vorgezogen werden sollte.

Das Audioformat FLAC

FLAC steht für 'Free Lossless Audio Codec' und ist ein Audioformat vergleichbar zu MP3, jedoch mit einer Vielzahl an Vorzügen im Vergleich. FLAC ist sowohl Audiocodec als auch Containerformat. Der zugehörige Standard beschreibt einen Algorithmus zum Kodieren und Dekodieren der Audiodaten und das Dateiformat, in dem die kodierten Dateien ausgetauscht werden. FLAC ist Freeware und Open Source. Im Gegensatz zu MP3 und vielen anderen Formaten kann das Format ohne Abfuhr von Lizenzgebühren eingesetzt werden.

Die Entwicklung an FLAC wurde im Jahr 2000 begonnen, am 20.07.2001 wurde die Referenzimplementation mit Version 1 veröffentlicht. Als einer der ersten Hardwarehersteller unterstützte PhatNoise, ein Zulieferer für Automobilhersteller das Abspielen von FLAC in seinen Geräten. Bekannt wurde FLAC auch durch die Band Metallica, welche seit dem Jahr 2004 Konzertmitschnitte nicht nur als MP3, sondern auch als FLAC anbietet. Heute wird FLAC von einer Vielzahl portabler und stationärer Abspielgeräte unterstützt. Im Bereich der Heimcomputer gehört das Abspielen von FLAC mittlerweile zur Standardfunktionalität der meisten Medien- und Musikabspielprogramme für PC und Mac.

FLAC ist ein verlustfreies, komprimiertes Audioformat. Im Durchschnitt komprimiert FLAC die Audiodaten auf etwa 60% ihrer ursprünglichen Größe. Die Musikart ist dabei relevant für die Kompressionsrate: Ein ruhiges Stück mit wenigen Instrumenten kann auch bis zu 30% der ursprünglichen Größe komprimiert werden. Ein umfangreiches Stück kann etwa nur auf 75% komprimiert werden. FLAC unterstützt Eingangssignale mit Auflösungen von 4 bis 32 Bit pro Sample, Abtastfrequenzen von 1 Hz bis zu rund 655 kHz und 1 bis 8 gleichzeitige Kanäle für Surround-Klang.

Die Audioformate ALAC, DSD, DXD

ALAC steht für 'Apple Lossless Audio Codec'. Das Audioformat wurde am 28. April 2004 mit einem Update der Apple-Abspielsoftware Quicktime veröffentlicht. Auch ALAC ist ein verlustfreies komprimiertes Audioformat, da das Format aber bis Oktober 2011 proprietär war, ist über dessen Funktionsweise nur wenig bekannt. Außerhalb der Apple-Welt genießt ALAC nur eine geringe Verbreitung. Es kann angenommen werden, dass ALAC eine ähnlich hohe Wiedergabequalität wie FLAC ermöglicht.

DSD steht für 'Direct Stream Digital' und ist eine Methode zur hochauflösenden Speicherung von Audio-Daten. Im Gegensatz zur klassischen PCM beruht sie auf dem Prinzip der Delta-Sigma-Modulation. DSD ist im Gegensatz zu FLAC, ALAC und DXD im eigentlichen Sinn kein Dateiformat und beschreibt auch keinen Kompressionsalgorithmus. Die Unterschiede zwischen PCM und DSD erklären wir im folgenden Kapitel.

DSD ist auch die grundlegende Technik hinter der Super Audio CD (SA-CD). Die SA-CD stellt eine Weiterentwicklung der herkömmlichen Audio-CD dar und basiert auf der DVD-Technik. Im Gegensatz zur Audio-CD setzt die SA-CD auf DSD statt PCM und ermöglicht Surround-Klang. DSD wird in der SA-CD mit einer festen Samplingrate von 2,8224MhZ eingesetzt, dabei fallen pro Minute und Kanal 16 mal soviel Daten an wie bei der herkömmlichen CD. Die ersten Abspielgeräte für das Format wurden im Jahre 1999 hergestellt, waren damals aber sehr kostspielig. Seit 2009 sind massenmarkttaugliche Geräte zu Preisen von unter 100€ verfügbar.

DXD steht für 'Digital eXtreme Definition' und ist ein komprimiertes, verlustfreies Audioformat speziell zur Speicherung von Audiodaten im DSD Format. Da die unkomprimierten DSD-Daten sehr viel Platz auf der Festplatte einnehmen würden, werden diese typischerweise eher im gleichwertigen, aber platzsparenden DXD Format kopiert. Intern verwendet DXD nicht die DSD-Repräsentation, sondern die klassische PCM-Repräsentation von Audiodaten. Da DXD dabei eine äußerst hohe Auflösung verwendet, geht bei der Überführung einer SACD in DXD keine Qualität verloren.

Speicherung digitaler Audiodaten

Schall wird von schwingenden Gegenständen, wie z.B. Musikinstrumenten oder den menschlichen Stimmbändern erzeugt. Schwingt ein Gegenstand, so veranlassen dessen Schwingungen die Moleküle der umgebenden Luft sich fortlaufend zu verdichten und voneinander wegzustreben: Es entstehen Schallwellen. Schwingen die Schallwellen mit einer Frequenz zwischen 16 und 20.000 Hz bzw. Schwingungen pro Sekunde so spricht man von Hörschall. Das tatsächliche typische Hörvermögen eines Menschen im Erwachsenenalter ist jedoch geringer und endet bei ca. 16.000 Hz.

Schallwellen, auch solche die vom Menschen nicht gehört werden, können durch ein Mikrofon in eine entsprechende analoge Spannung umgewandelt werden. Die Kurve, welche durch die Aneinanderreihung der gemessenen Spannungen entsteht, wird auch analoges Audio-Signal genannt. Analoge Signale, wie vom Mikrofon aufgezeichnet, sind wertkontinuierlich bzw. stufenlos (siehe Abbildung oben) und daher nicht zur digitalen Speicherung geeignet. Das analoge Signal muss zunächst mittels PCM oder DSD in eine digitale Repräsentation überführt werden.

In der PCM wird die analoge Spannung in regelmäßigen Abständen mittels eines Analog-Digital-Wandlers (auch: ADC, Analog-Digital-Converter) abgetastet und die dabei ermittelten Werte zum Zweck der Speicherung auf einen ganzzahligen Wert gerundet. Dieser Prozess wird auch Sampling, die dabei gemessenen Werte Samples genannt. Das Sampling eines ursprünglich analogen Audiosignals (weiß) in ein digitales Signal (grün) wird von der Abbildung unten veranschaulicht (Quelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svg). Die vertikale Achse repräsentiert dabei die Spannung des Signals, die horizontale Achse die Zeit.

Beim Sampling kommt bereits die Bedeutung der Auflösung bei digitalen Audiosignalen zum Tragen. Auflösung hat bei Audiosignalen zwei Dimensionen: Eine zeitliche und eine auf die Präzision der Wiedergabe bezogene.

Die zeitliche Dimension ist einfach beschrieben mit der Geschwindigkeit der Abtastung, bzw. der damit verbundenen Anzahl an Samples pro Sekunde. Das analoge Signal muss aufgrund des Nyquist-Shannon-Theorems mindestens 40.000 mal pro Sekunde abgetastet werden, um Klang bis zur oberen Grenze des menschlichen Hörvermögens (20.000 Hz) originalgetreu in seine digitale Repräsentation überführen zu können. Tatsächliches Studioequipment zeichnet Schallwellen jedoch in einer wesentlich höheren Frequenz, zwischen 88.200 und 352.800 Hz, auf.

Die Dimension der Präzision hängt mit der Quantisierung zusammen. Man nennt diese Dimension auch Dynamikumfang. Wie bereits erwähnt kann das analoge Signal aufgrund seiner Stufenlosigkeit nicht ohne weiteres digital gespeichert werden – digital gespeichert werden kann nämlich nur, was in zuvor fest definierten Stufen vorliegt. Analoge Werte dagegen entsprechen einer reellen Zahl unendlicher Präzision zwischen einschließlich 0 und ausschließlich 1. Der Prozess der Überführung von der analogen Stufenlosigkeit in die Regeln des digitalen Raums wird Quantisierung genannt. Bei der Quantisierung werden die analogen Werte mit einem festen Wert multipliziert und anschließend auf die nächste Ganzzahl gerundet. Durch den Multiplikator wird die Präzision festgelegt, wobei eine höhere Präzision jeweils besserer Wiedergabequalität entspricht. Die Präzision bei Audiosignalen wird typischerweise auf 16 Bit (Multiplikator 65.536), 24 Bit (Multiplikator 16.777.216) oder 32 Bit festgelegt (Multiplikator 4.294.967.296). Wie Sie sich die Dimension der Präzision in der Praxis vorstellen können zeigt die Abbildung, indem sie dasselbe Signal, einmal mit hoher Präzision abgetastet (oben) und einmal mit niedriger Präzision (unten) abgetastet gegenüberstellt. Der Unterschied in der Präzision zwischen den zwei Kurven beträgt in etwa 3 Bit.

Man könnte dieser Liste ohne Weiteres eine weitere Dimension hinzufügen: Die Räumlichkeit, angegeben durch die Anzahl der insgesamt gleichzeitig aufgenommenen Audiosignale bzw. die daraus resultierende Anzahl der Kanäle. Mittlerweile sind zwei Kanäle – auch Stereo genannt – Standard, aber auch Aufnahmen mit 5+1 oder 8+1 Kanälen, wobei der zusätzliche Kanal der Aufnahme niederfrequenter Bass-Signale entspricht, sind nicht ungewöhnlich.

An dieser Stelle möchten wir Ihnen aufzeigen, wo bewährte Arten der Wiedergabe und hochauflösende Audioformate in Bezug auf die drei vorgestellten Dimensionen einzuordnen sind:

  • Die herkömmliche Audio-CD ermöglicht 44.100 Samples pro Sekunde, eine Präzision von 16 Bit und zwei Kanäle.

  • MP3 ermöglicht bis zu 48.000 Samples pro Sekunde, eine Präzision von 16 Bit und einen oder zwei Kanäle.

  • FLAC ermöglicht bis zu 352.800 Samples pro Sekunde, eine Präzision von 24 Bit und zwei Kanäle. Bei 96.000 Samples pro Sekunde sind auch 5.1 Kanäle möglich.

  • DSD auf der SA-CD basiert auf 2.822.400 Samples pro Sekunde und einer Präzision von 1 Bit. Die Technik unterscheidet sich grundsätzlich von der PCM und wird im Folgenden erklärt.

Aufgrund des Nyquist-Shannon-Theorems ging man zum Zeitpunkt der Entwicklung von Audio-CD und MP3 davon aus, dass die gebotene Auflösung von 44.100 Samples pro Sekunde mehr als ausreichend ist. Jedoch müssen bei der Konvertierung in 44.100 Samples/s hochfrequente Anteile des ursprünglichen Audiosignals mittels eines Tiefpassfilters entfernt werden, und dabei kann es zu Quantisierungsrauschen kommen.

Bei DSD wird das Audiosignal zwar auch digital abgetastet, aber es werden nicht die gemessenen Spannungen selbst, sondern deren Änderungen gespeichert. DSD basiert auf der Delta-Sigma-Modulation. Mathematisch ausgedrückt entsprechen die PCM-Samples den eigentlichen Funktionswerten, die DSD-Samples den jeweiligen Ableitungswerten bzw. der Änderung am jeweiligen Punkt. Auch hier kommen die Dimensionen der Zeit, der Präzision und der Räumlichkeit zum Tragen. Die SA-CD setzt dabei auf eine Präzision von nur 1 Bit, aber arbeitet mit 2.822.400 Samples pro Sekunde. Letztendlich wird dadurch eine sehr genaue Rekonstruktion des ursprünglichen Signalverlaufs ermöglicht. Eine schematische Darstellung der DSD-Technik zeigt die Abbildung oben (Quelle: http://en.wikipedia.org/wiki/File:PCM-vs-DSD.svg). Es wird vermutet, dass DSD herkömmlichen, auf PCM basierenden Formaten grundsätzlich überlegen ist, jedoch ließen sich entsprechende Vermutungen bislang nicht belegen.

Die meisten Audioformate speichern das digitale Signal nicht unkomprimiert im PCM oder DSD-Format, sondern setzen auf verlustfreie und verlustbehaftete Techniken der Datenkompression zur Reduktion der Datenmenge.

Die gängigen Formate MP3, AAC und WMA nutzen ein sogenanntes psychoakustisches Modell, um nicht hörbare Bestandteile eines Audiosignals zu entfernen. Ein sehr gutes psychoakustisches Modell ermöglicht so Einsparungen um den Faktor 20. Die entsprechenden Verluste in der Wiedergabequalität sind zwar vorhanden, können oft aber nur von geschulten Hörern im direkten Vergleich zum Original erkannt werden. Bei der verlustbehafteten Kompression mittels des psychoakustischen Modells und dem Einsatz entsprechender Audioformate bleiben jedoch zwei Dinge zu Bedenken:

  1. Nicht jedes psychoakustische Modell verrichtet gute Arbeit. Viele MP3-Coder, die heute noch im Einsatz sind, setzen auf veraltete Modelle aus der Anfangszeit der Forschung und erreichen so grundsätzlich nur schlechte Wiedergabequalität

  2. Die Preise für Datenspeicher sind seit der Entwicklung von MP3, WMA und AAC stark gesunken. War MP3 früher angesichts begrenzten Speicherplatzes die einzige Option, so haben Sie heute die Wahl. Setzen Sie weiterhin auf verlustbehaftete Formate so tauschen Sie eventuell Hörgenuss gegen Speicherplatz ein.

Fast alle Audioformate, darunter MP3, AAC, WMA, FLAC, ALAC und DXD nutzen verlustfreie Kompressionstechniken. Diese führen zu keinen (zusätzlichen) Verlusten in der Wiedergabequalität, da sie nur die digitale Repräsentation der Daten verändern. Mittels verlustfreier Kompressionstechniken sind Einsparungen um den Faktor 2 im Vergleich zur unkomprimierten Größe der komprimierten Audiodaten möglich.

Im nächsten Kapitel erklären wir Ihnen die Vorteile hochauflösenden Audios für Sie, den Endkunden und Hörer.

Die Vorteile von hochauflösendem Audio

Falls Sie das letzte Kapitel gelesen haben, wissen Sie nun, dass das menschliche Gehör Schall nur im Bereich zwischen 16 Hz bis maximal 20 kHz verarbeiten kann. Wir haben auch erwähnt, dass aufgrund des Nyquist-Shannon-Theorems in einem digitalen Audiosignal mindestens das doppelte der maximal wiederzugebenden Frequenz gespeichert werden muss, also in diesem Fall 40 kHz. Sie werden sich nun fragen: Warum brauche ich Auflösungen oberhalb 40 kHz, wenn doch MP3 und die Audio-CD bereits eine mehr als ausreichende Auflösung bieten?

Das Problem liegt im Detail: Schallwellen in der Natur, auch solche, die durch Musikinstrumente erzeugt werden, halten sich nicht an die vom menschlichen Gehör vorgegebenen Beschränkungen und erreichen auch höhere Frequenzen als 20 kHz. Mit anderen Worten enthält Musik auch Bestandteile, die Sie nicht hören können, welche aber durch Mikrofone aufgezeichnet werden können. Nun braucht es Sie zwar eigentlich nicht zu stören, dass nicht hörbare Bestandteile in einer Musikdatei nicht vorhanden sind, jedoch müssen die höherfrequenten Bestandteile bei der Umwandlung in das jeweilige Audioformat entfernt werden. Sie können nicht einfach abgeschnitten werden, da andernfalls Reste dieser Bestandteile innerhalb der Aufnahme als Quantisierungsrauschen verbleiben und den Hörgenuss stören. Die Aufnahme muss mittels eines Tiefpassfilters nachbearbeitet werden.

Ein Tiefpassfilter unterdrückt Schall oberhalb einer bestimmten Frequenz. Abhängig von der Auflösung des Ausgangsmaterials und der Qualität des Tiefpassfilters können dabei sehr gute Resultate erzielt werden, es können jedoch auch hörbare Verluste der Audioqualität entstehen. Da qualitativ hochwertige Tiefpassfilter sehr teuer und aufwändig zu produzieren sind, ist nach der Filterung nicht immer eine verlustfreie Wiedergabe des ursprünglichen Audiosignals garantiert. Tiefpassfilter behelfen sich oft eines Hilfskonstrukts, des sogenannten Gleitbereichs. Der Gleitbereich ist ein bestimmter Bereich oberhalb des hörbaren Frequenzbereichs, für den suboptimale Ergebnisse akzeptabel sind. Besser als der Einsatz dieses Hilfskonstrukts ist jedoch der Einsatz hochauflösender Formate, welche das entsprechende Problem gar nicht entstehen lassen.

Um Ihnen die Arbeit eines Tiefpassfilters zu demonstrieren, zeigen die folgenden drei Abbildungen Beispiele in unterschiedlichen Auflösungen. Die gezeigten Abbildungen wurden aufwändig erstellt durch das Pinguin Ingenieurbüro (www.masterpinguin.de) unter Leitung von Dipl.-Ing. Ralf Kessler. Zum Einsatz kam dabei PGAMM, ein Pinguin Audio Spektrometer. Die horizontale Achse repräsentiert die Zeit, die vertikale Achse die Frequenz. Desto mehr ein bestimmter Bereich zur Farbe Rot tendiert, desto dominanter, also lauter sind die entsprechenden Frequenzanteile des Audiosignals an der jeweiligen Stelle.

Diese Abbildung zeigt die Aufnahme innerhalb einer MP3-Datei niedriger Qualität. Der Frequenzbereich ist auf 12 kHz beschränkt. Von einer solchen Aufnahme können Sie keine hohe Klangqualität erwarten.

Hier sehen Sie die selbe Aufnahme, jedoch kodiert als MP3 mit hohen Qualitätseinstellungen. Auch aus der Abbildung ist jedoch erkennbar, dass Frequenzbereiche ab 22,05kHz abrupt abgeschnitten sind. Die Abspielqualität dieser Aufnahme könnte Sie bereits zufriedenstellen.

Diese Abbildung zeigt die Aufnahme in Ihrem vollen Frequenzumfang. Sie wurde anhand einer Aufzeichnung mit 96 kHz / 24 Bit erzeugt. Bei einer solchen Aufnahme können Sie sich sicher sein, dass Ihnen nichts entgeht - der volle Hörgenuss ist garantiert.

Impressum

BUROSCH Audio-Video-Technik
Inhaber: Klaus Burosch
Sigmaringer Str. 20
70567 Stuttgart / Germany
www.burosch.de
Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

Technischer Redakteur:
Matthias Stirner

Copyright 2012 – All rights reserved