CD-Dualität aus dem Tuner - auch ohne Satellit
Wir informierten Sie bereits vor Jahren über die Grundlagen des digitalen Satellitenhörfunks. Quellsignalen werden dabei je digitalem Abtastwert löstellige Dualzahlen zugeordnet , welche auf Empfängerseite zu dekodieren sind. Da die hier auflaufende Informationsmenge eine Datenrate von etwa 1,4 Megabit ergibt, welche pro Sekunde über den Sender gehen muß, läßt sich aufgrund der dazu notwendigen Kanalkapazität Hörfunk in CD-Qualität bislang nur über Satellit verwirklichen. Gelingt es dagegen, die Datenrate erheblich zu reduzieren, und zwar angepaßt an die gegenwärtig verfügbare UKW-Kanalband- breite von etwa 300 Kilohertz (kHz) pro Sender, so rückt „CD- Hörfunk“ im UKW-Bereich unter Beibehaltung der herkömmlichen Übertragungstechnik in die Nähe des Machbaren.
Merscheim: Das von Ihnen entwickelte MSC-Verfahren ist in engem Zusammenhang mit der Puls-Code-Modulation zu sehen, das bei CD-Aufnahmen Verwendung findet. PCM bedeutet, daß akustische Signale, Quellsignale, letztlich als Folge von Binär-beziehungsweise Dualzahlen dargestellt werden. Jede dieser Binärzahlen repräsentiert einen Abtastwert, der als Stichprobe aus dem Quellsignal zu verstehen ist. Wie kommt man auf die ungeheure Datenmenge von 1,4 Megabit, die pro Sekunde beim PCM-Verfahren anfallen?
Krähe: Zuerst müssen wir wissen, wie häufig überhaupt zeitlich aufeinanderfolgende Abtastwerte zu erheben sind. Wenn Signale bis 20 kHz erfaßt werden sollen, ist nach dem Shannon-Theorem festgelegt, daß die Abtastung mit mindestens doppelter Grundfrequenz, also mit 40 kHz, zu erfolgen hat. Man kann die Beobachtung vernachlässigen, daß höhere Frequenzen gelegentlich auch noch hörbar sind, da diese dann energetisch so stark sein müssen, wie es bei „normalen“ Musikpräsentationen kaum vorkommt.
Merscheim: Eine Abtastrate von 40 kHz bedeutet demnach, daß dem Musiksignal in jeder Sekunde 40 000 Abtastwerte oder Stichproben zu entnehmen sind, um es realitätsgetreu speichern zu können. Wenn aber noch, wie Sie eben erwähnten, Signale oberhalb von 20 kHz vorhanden sind, muß dann nicht die 20-kHz- Grenzfrequenz gegenüber den nachfolgenden Frequenzen hart abgetrennt werden?
CD-Spieler könnten noch besser werden
Krähe: Ja, wenn man das nicht macht, können Signalverzerrungen, sogenannte Aliasing-Phänomene, auftreten. In der Konstruktion der für die „Grenzziehung“ eingesetzten Spezialfilter vermutet man den Grund dafür, daß das technisch mögliche CD-Qualitätspotential noch nicht an die Grenzen des Perfektionismus herangetrieben werden konnte. Der Verzicht auf solche Filter wird diskutiert, da ihr Einsatz Phasenverzerrungen bewirken kann, deren Störeinfluß bis hinab zu 15 kHz registrierbar ist.
Merscheim: Die exakte Abtastrate bei der digitalen Speicherung von CD-Signalen beläuft sich auf 44,1 kHz. Zur Repräsentation von Signalen bis 20 kHz wären aber eigentlich nur 40 000 Abtastwerte erforderlich?
Krähe: Die Differenz erklärt sich einfach daraus, daß die Flanke der Grenzfrequenz nicht beliebig steil verläuft.
Merscheim: Bei CD-Aufnahmen liegen also pro Sekunde 44 100 Abtastwerte vor, die jeweils um 23 Mikrosekunden zeitversetzt auf einanderfolgen. An jeden dieser Abtastwerte wird eine Meßlatte angelegt, die hinreichend lang sein muß, um jede denkbare Probe mit einem Wert belegen zu können.
Krähe: Nicht nur die Länge der Meßlatte ist für die Güte der Signalrepräsentation entscheidend. sondern auch der verwendete Maßstab. Ob ich in Zentimetern oder in Millimetern messe, ist ein Unterschied. Bei der „CD-Meßlatte“ arbeitet man mit einer Einteilung in 64 000 verschiedene Werte, oder, auf das Dualsystem bezogen, mit einer löstelligen Binärzahl.
Merscheim: Das löstellige Kodewort wurde doch nicht willkürlich gewählt. Hätten es nicht auch zehn Bit getan - immer mit dem Hintergedanken an eine Reduktion der Informationsmenge?
Krähe: Es gibt eine Nachrichtentechnikern geläufige Faustregel, wonach der Störabstand pro Bit 6 dB beträgt. Wird zur Signaldarstellung mit 12-Bit-Worten gearbeitet, erreicht man einen Störabstand von 72 dB, der auch von guten Tonbandgeräten in Analogtechnik geleistet wird. Die restlichen 4 Bit werden bei der CD-Technik als Sicherheitsreserve benötigt, um Signale mit extrem kleinen oder großen Pegeln - Foot-/Headroom - ebenfalls zuverlässig darstellen zu können. Es handelt sich also um einen technisch vernünftigen Kompromiß, der zudem den Verarbeitungsmöglichkeiten im Computerwesen entgegenkommt, das schließlich auf dem Binärsystem beruht. Natürlich ist die 16-Bit-Kodierung nicht die Grenze des Machbaren. In Studiokreisen wird über die Anhebung dieser Grenze auf 24 und mehr Bit nachgedacht.
Merscheim: Das PCM-Verfahren für CDs setzt sich demnach aus den Faktoren „44 100“ und „16“ zusammen, wobei die „44 100“ die Anzahl der Signalstichproben je Sekunde beschreibt und die „16“ die Genauigkeit der zahlenmäßigen Repräsentation jedes Abtastwerts. Da sich diese Werte nur auf die einkanalige Speicherung beziehungsweise Wiedergabe beziehen, muß zur stereophonen Datenrepräsentation die doppelte Informationsmenge übertragen werden, also die bereits angesprochenen 1,4 Megabit je Sekunde. Nun arbeitet der Satellitenhörfunk ja mit dem PCM-Verfahren, das allerdings im Vergleich zur CD-Technik hinsichtlich des Kodieraufwands geringfügig abgemagert ist. Hörfunk in CD-Qualität ist also prinzpiell machbar. Ihre Fragestellung rückt aber den erdgebundenen Hörfunk in den Vordergrund, wo aufgrund der Kanalbreite nur etwa 300 Kilobit je Sekunde übertragen werden können. Terrestrischer Hörfunk in CD-Qualität ist also nur dann möglich, wenn die CD-Datenrate mindestens um den Faktor „4“ abzusenken ist. An den Datenfaktoren „2“ für Stereophonie und der Anzahl der Abtastwerte von 44 100 läßt sich bei Beibehaltung der Qualitätsanforderungen nichts einsparen. Ihre Kürzungsüberlegungen setzen dann folgerichtig am Faktor „16“ an, der die Exaktheit des jeweiligen Abtastwertes beschreibt?
Krähe: Auch wir gehen natürlich erst einmal vom PCM-Signal aus. Als Breitbandsignal transportiert es ja jede Musikinformation, die innerhalb der Eckwerte von 0 bis 20 kHz liegt. Nur haben wir uns noch gefragt, ob man nicht die technischen Vorteile des Digitalverfahrens, also zum Beispiel die Möglichkeit der kurzzeitigen Zwischenspeicherung von Informationen, besser als bisher nutzen kann. Muß zur realitätsgetreuen Abbildung des Quellsignals wirklich jede PCM-Infor- mation Berücksichtigung finden? Und vor allem: Muß der 16-Bit- Darstellungsaufwand durchgehalten weden? Wir haben deshalb den PCM-Weg an dieser Stelle verlassen, da er sich unter dem Gesichtspunkt einer Datenreduktion als Sackgasse darstellte. In einem ersten Schritt mußten die eingehenden Signale analysiert werden. Das heißt, das Signal wurde hinsichtlich seiner Spektralwerte aufgegliedert. Das muß man sich so vorstellen, daß wir die für den Hörer wesentlichen Informationen aus dem Signal herausziehen. Hierzu gehören Lautstärke und Tonhöhe jeweils in ihren Zeitverlauf. Der Analysevorgang selbst ist unter der Bezeichnung „Fourier- Transformationskodierung“ bekannt. Es werden Schwingungen mit Hilfe von Rechenvorschriften in ihre Partialschwingungen zerlegt. Nach einer solchen Signalanalyse weiß ich zum Beispiel etwas über die Stärke der tiefen Frequenzen, über die Verteilung der hohen Frequenzen und so weiter. Auf der Basis dieser Spektralanalyse lassen sich psychoakustische Eigenschaften des Gehörs datenreduzierend zum Einsatz bringen. So ist zum Beispiel schon seit langem bekannt, daß die vom menschlichen Gehör bereitgestellte Signalverarbeitungskapazität in direkter Abhängigkeit von der Komplexität des Musiksignals steht.
Merscheim: Im Gegensatz zur Puls-Code-Modulation, die für jeden Signalwert eine konstante Kodierkapazität zur Verfügung stellt, orientieren Sie sich demnach an der aktuellen Bedürfnislage des Gehörs. Auf diesem Weg mag zwar eine Datenreduktion möglich sein, ob aber die geforderte CD-Qualität erhalten bleibt, ist eine andere Frage, deren Beantwortung mit allen subjektiven Einschränkungen wohl Hörtests Vorbehalten bleiben muß, in denen CD-Original und datenreduzierte Bearbeitung einander gegenüberzustellen sind. Bevor wir auf die psychoakusti- schen Kriterien etwas näher ein- gehen, noch einmal zurück zur Transformationskodierung nach Fourier. Läßt sich das Vorgehen hierbei differenzierter fassen ?
Krähe: Beim PCM-Verfahren repräsentieren die Abtastwerte den Schalldruckverlauf eines Signals in seiner zeitlichen Entwicklung. Die Transformationskodierung mit der Signalaufspaltung in Spektralwerte dagegen stellt man sich am besten als eine Filterbank vor, welche das eingehende Signal in Bandpass-Signale aufsplittet. Hieraus erhält man Aufschluß über die Form des Signals in seinen einzelnen Frequenzbereichen, wobei natürlich der gesamte Frequenzgang von 0 bis 20 kHz abgedeckt wird.
Merscheim: Die spektrale Aufschlüsselung der Quellsignale wird nun von Ihnen in einen Zusammenhang mit psychoakustischen Eigenschaften des Gehörs gebracht. Können Sie auch diesen Vorgang etwas genauer beschreiben?
Was das Ohr sowieso nicht hört...
Krähe: Das Gehör verarbeitet eingehende Signale in Frequenzgruppen, oder, anders formuliert, innerhalb einer solchen Gruppe werden die Schallintensitäten integral bewertet, was dann einen bestimmten Lautstärkeeindruck beim Hörer erweckt. Schon vor geraumer Zeit durchgeführte psychoakustische Messungen ergaben, daß eine Störkomponente, oder ganz allgemein gesagt eine Signalkomponente, innerhalb einer Frequenzgruppe dann nicht mehr hörbar ist, wenn sie um einen bestimmten dB-Wert unterhalb des dominanten Gruppenpegels liegt. Beispiel: Einem Schmalbandrauschen von etwa 1 kHz wird ein Sinuston zugefügt, der in Lautstärke und Frequenz variabel ist. Stimmt der Sinuston genau mit der Mittenfrequenz des Rauschens überein, dann kann er bis zu 6 dB unterhalb des Rauschens liegen, ohne daß er hörbar wird. Die praktischen Auswirkungen dieses Phänomens sind eminent: Was nicht gehört wird, braucht nicht übertragen zu werden und benötigt in der Konsequenz keine Bit-fordernde Kapazität, die jedoch beim PCM-Verfahren auch für nicht hörbare Signale oder Signalanteile vorrätig gehalten wird. Im Umkehrschluß läßt sich das Phänomen auch dergestalt nutzen, daß man bei der Signalübertragung Störfaktoren bis hin an die Grenze der Hörbarkeit zulassen kann.
Merscheim: Die Transformationskodierung zerlegt also aufgrund von Rechenvorschriften ein Quellsignal in seine spektralen Bestandteile. Diese müssen in Form von Zahlenkolonnen repräsentiert werden, um ihre rechnergestützte Zwischenspeicherung und Verarbeitung auch unter Berücksichtigung der Psychoakustik zu ermöglichen. Wie und in welchen Zeitabständen erfolgt die Abtastung dieser Spektralwerte?
... braucht nicht übertragen zu werden
Krähe: Wir arbeiten mit Zeitabschnitten, deren Bildung als Fensterung bezeichnet wird. Ein solcher Zeitabschnitt setzt sich aus 1024 Abtastpunkten zusammen. Bezieht man die Anzahl der Abtastpunkte im Zeitabschnitt auf die CD-Abtastrate von 44,1 kHz, so ergibt sich eine Blocklänge von etwa 23 Millisekunden. Man muß sich das so vorstellen: Unser CD-Quellsignal liefert 44 100 Signalinformationen pro Sekunde, die zeitlich hintereinander in unseren Rechner einfließen. Hieraus bilden wir wiederum zeitlich aufeinanderfolgende Analyseblöcke mit jeweils 1024 Abtastwerten. Am Rande sei erwähnt, daß die Blöcke nicht hart aneinander grenzen, sondern zur Verbesserung der Analyseergebnisse eine geringfügige Überlappung aufweisen. Der Analyse Vorgang selbst überführt die 1024 CD- Zeitwerte in die entsprechenden Spektralwerte.
Merscheim: Ihr Verfahren unterscheidet sich also in der Darstellungsform der Quellsignale grundsätzlich vom PCM-Verfahren. Die Spektralanalyse und spektrale Darstellung ist notwendig, um die auf gleichfalls spektraler Ebene definierten psycho- akustischen Eigenschaften des Gehörs überhaupt zum datenreduzierenden Einsatz bringen zu können?
Krähe: Erst eine gemeinsame Basis erlaubt Aussagen darüber, welcher Spektralwert mit welcher Genauigkeit dargestellt werden muß. Recht plastisch wird das Verfahren der Transformationskodierung, wenn man es sich als Arbeit mit „Musterkurven“ vorstellt. Für jeden in seine Spektralwerte zu überführenden Analyseblock haben wir ein Set von sinusförmigen Musterkurven, die eine bestimmte Frequenzrasterung aufweisen. So repräsentiert die erste Musterkurve den Gleichanteil im Zeitblock, die zweite eine Schwingung über den Zeitblock, die dritte zwei Schwingungen und so weiter. Von diesen Musterkurven wird der Betrag, also die Amplitude, und der Phasenanschnitt, also die Startphase zu Beginn des Zeitblocks, registriert. Die Form der Musterkurven selbst ist fixiert und unterliegt keinen Veränderungen.
Merscheim: Demnach können die 1024 CD-Zeitwerte anhand solcher Musterkurven beschrieben werden, zu deren Darstellung die Notierung von Amplitude und Phasenanschnitt ausreicht. Um die ursprünglichen CD-Zeitwerte wiederherzustellen, müßte dann nur noch ein Generator vorhanden sein, der auf der Basis von Amplitude und Phasenanschnitt die Rückumwandlung vornimmt. Während dieser „spektralen Zwischenspeicherung“ erfolgt die psychoakustische Anpassung, also eine im Vergleich zum PCM-Verfahren bedeutend konzentriertere Art der Signaldarstellung. Was bedeutet die von Ihnen im Zusammenhang mit der psychoakustischen Anpassung angesprochene Reduktion irrelavanter Signalanteile?
Krähe: Eine typische Eigenschaft unseres Gehörs besteht darin, daß es Signale nur dann wahrnimmt, wenn deren Intensität eine bestimmte Schwelle überschreitet. Man unterscheidet da zwischen Ruhehörschwelle und Mithörschwelle. Während erstere als tatsächliche Grenze der Wahrnehmbarkeit fixiert ist, hängt die Mithörschwelle von der Art der Anregung ab. Wir sprechen immer dann von einem Verdeckungseffekt, wenn Signalkomponenten zwischen diesen beiden Schwellen liegen und die dominanten Signalanteile die oberhalb der Ruhehörschwelle positionierten Informationen für das Gehör nicht wahrnehmbar machen. Zusätzlich ist bei der Mithörschwelle noch ein zeitlicher Effekt zu beobachten und für die Datenreduktion zu nutzen: In Abhängigkeit von der Art der jeweiligen zeitlichen Verdekkung unterscheidet man zwischen Vor-,Simultan- und Nachverdeckungseffekt, wobei der letztgenannte im Vergleich zu ersterem einen erhebüch längeren Zeitraum einnimmt. Wenn man das weiß, kann man computergestützte Kodiervorschriften entwickeln, die auf Basis der Spektralanalyse nicht wahrnehmbare Signale unterdrücken, beispielsweise im Umkehrschluß bei der Signalkodierung das Entstehen von Fehlern zulassen, die aber in einem definierten Abstand von der Mithörschwelle liegen müssen.
Merscheim: Simultan- und Nachverdeckung scheinen logisch zu sein. Wie erklärt sich dagegen der Vorverdeckungseffekt?
Laute Töne überholen leise
Krähe: Ein Testton, der zeitlich vor dem maskierenden Signal liegt, wird für einige Millisekunden nicht registriert, weil laute Signale von unserem Ohr schneller verarbeitet werden. Auf dem Verarbeitungsweg des Signals vom Gehör zum Gehirn wird die leisere Information praktisch von der lautstärkeintensiveren überholt. Eine weitere Eigenschaft des Gehörs besteht darin, daß es nicht alle Frequenzen gleich gut auflöst. Diese Auflösung ist bei tiefen Frequenzen besser als bei hohen. Damit verbunden ist, daß die angesprochenen Frequenzgruppen bei tiefen Frequenzen eine geringere Breite besitzen - 100 Hz die sich zu hohen Frequenzen hin proportional zur Mittenfrequenz verbreitern. Dieses Verhalten wird im nachrichtentechnischen Sinne mit dem Begriff „relative konstante Bandbreite“ belegt. Da wir bei unserer Spektralanalyse mit fixierten Musterkurven arbeiten, mußten wir uns an dem Auflösungsvermögen für die tiefen Frequenzen orientieren, mußten also eine Auflösung von unter 100 Hertz erreichen. Wir arbeiten mit einer tatsächlichen Auflösung von 43 Hertz, wobei sich dieser Wert aus der zeitlichen Analyseblocklänge von 23 Millisekunden ergibt. Das bedeutet, daß wir pro Frequenzgruppe mindestens zwei Stützwerte zur Verfügung haben. Die Frequenzdiskriminierung, also die Fähigkeit, zwei Töne unterschiedlicher Frequenz auch wirklich voneinander unterscheiden zu können, ist noch feiner.
Merscheim: Hieraus erklärt sich aber noch nicht die Festlegung der Länge der Analyseblöcke auf 23 Millisekunden.
Krähe: Wenn die Analyseblocklänge etwa 50 Millisekunden erreicht, wird eine Schwelle im Zeitauflösungsvermögen des Gehörs überschritten. Bei jeder Kodierung treten Fehler auf, die dann innerhalb dieses doch recht großen Zeitrahmens die Signaldarstellung hallartig verfälschen.
Merscheim: Die Transformationskodierung wie auch wesentliche Aspekte der Psychoakustik stellen ja kein wissenschaftliches Neuland dar. Erstere fand Verwendung in der Sprachanalyse, und psychoakustische Untersuchungen datieren bis zu 50 Jahre in die Vergangenheit. Ihre Leistung, für die Sie zusammen mit Klaus Beckmann mit dem Edu- ard-Rhein-Preis ausgezeichnet wurden, besteht in der Zusammenführung und Nutzbarmachung beider Phänomene. Diese verfahrenstechnische Symbiose trägt den Namen MSC für „Mehrfach adaptive spektrale Audiocodierung“. Einerseits nutzen Sie die Möglichkeit zur Datenreduktion anhand der Spektralanalyse, die sich regelmäßig wiederholende Signalanteile erkennt. Diese Periodizität läßt den Darstellungsaufwand für redundante Informationen geringer werden. Der zweite Reduktionsschritt findet auf der Basis der Psychoakustik statt, wo irrelevante oder nicht hörbare Signalanteile dann nicht weiter kodiert zu werden brauchen. Letztlich besteht also Ihre Leistungin der Entwicklung von Rechenvorschriften, die in Abhängigkeit vom Signal die zur Verfügung stehende Kodierkapazität so effektiv verwalten, daß Sie, bezogen auf einen PCM-Abtastwert, heute bereits mit 2,5 bis 3 Bit Darstellungsaufwand im Vergleich zu den sonst erforderlichen 16 Bit auskommen.
Ein in seine Spektralwerte aufgeschlüsseltes Originalsignal, das hier in Form von Zahlenkolonnen repräsentiert wird. Die Zahlenwerte bilden das mathematische Pendant zur graphischen Umsetzung eines akustischen Signals, wie sie auf der Oszilloskop-Aufnahme gezeigt wird.
Der Rechner kommt nicht mehr nach
Krähe: Wir haben die rein mathematischen Fragen mit dem Computer bearbeitet und uns dann an den Analysemöglichkeiten des menschlichen Gehörs orientiert. Natürlich traten bei unserem Kodiervorgehen Fehler auf, die wir aber in langwierigen Hörversuchen ausmerzen konnten. Wenn Sie so wollen, haben wir den Feinschliff der Signalverarbeitung von Hand vornehmen müssen.
Zur Zeit wird am Duisburger Universitätsinstitut für Nachrichtengeräte und -anlagen unter Leitung des Lehrstuhlinhabers Prof. Dr. Ing. Gerhard Dickopp an dem Problem der MSC-Echtzeit-verarbeitung von Audiosignalen für verschiedene Anwendungen gearbeitet. Diese Arbeiten werden vom Westdeutschen Werbefernsehen, einer Tochtergesellschaft des WDR, gefördert und in Zusammenarbeit mit der Deutschen Thomson Brandt betrieben. Es entstand ein Computer-Hardwareproblem, das darauf beruht, daß die Komplexität der Rechenvorschriften für die gehöradaptive Spektralanalyse die zur Verfügung stehende Abarbeitungsgeschwindigkeit eines frei programmierbaren Universalrechners übersteigt.
Die datenreduzierte MSC-Version eines Musikstücks kann also nur mit Hilfe einer Zwischenspeicherung (Band) mit dem Original im Hörtest verglichen werden. Es existieren bearbeitete Vergleichsbänder zur Demonstration der Wiedergabequalität des Verfahrens. Die Tonmeister des Westdeutschen Rundfunks hatten Gelegenheit zur Qualitätskontrolle, wobei vermutete Unterschiede zwischen Original und Bearbeitung wohl gleichfalls als psychoakustisches Phänomen anzusehen waren. Der Erfinder des MSC-Verfahrens, das von der Deutschen Thomson Brandt zum Patent angemeldet wurde, plant für die nähere Zukunft in Zusammenarbeit mit dem WDR den Verfahrenstest im Feldversuch.
Die Einsatzmöglichkeiten des MSC-Verfahrens müssen auf verschiedenen Ebenen gesehen werden: Die Speicherkapazität der herkömmlichen CD läßt sich auf das Vierfache steigern. Die Anzahl der Satellitenhörfunksender kann von zur Zeit 16 auf 64 erhöht werden. Auf der anderen Seite ist eine Reduktion des Archivplatzes in Studios und Sendeanstalten möglich. Und die für den Ingenieur Krähe gegenwärtig wichtigste Konsequenz: Unter Beibehaltung der rundfunktech- nischen Übertragungsbedingungen ist Hörfunk in CD-Qualität auf dem UKW-Band keine reine Zukunftsvision mehr.