Über das Hören
Musik, soll sie hörbar sein, ist an Schall gebunden. Physikalisch gesehen unterliegt sie den Gesetzmäßigkeiten, die für den Schall gelten. Schall entsteht, wo Materie schwingt, und zu seiner Ausbreitung in Form von Wellen bedarf er der Materie. Im nahezu materielosen interplanetaren Raum herrscht totale Stille. Die Sphärenmusik der Pythagoräer gibt es nicht.
Luftschall im kompressiblen Medium
Die angeschlagene Stimmgabel (Bild 1) schwingt, und zwar, weil sie so gebaut ist, exakt 440 mal in der Sekunde, nach internationaler Übereinkunft der Kammerton a. Diesen reinen Ton, mathematisch beschreibbar durch die Sinusfunktion und daher auch Sinuston genannt, mit der Frequenz f = 440 Hertz (abgekürzt Hz), strahlt die Stimmgabel in die Luft ab. Die Schwingung breitet sich in Form einer Kugelwelle aus, wie eine Seifenblase mit der Stimmgabel im Mittelpunkt, deren Radius mit der Ausbreitungsgeschwindigkeit der Schwingung, also der Schallgeschwindigkeit in Luft, wächst.
Bild 1: Ein einfacher Schallsender. Die schwingenden Zinken der Stimmgabel erzeugen in der umgebenden Luft Druckschwankungen - Verdichtungen und Verdünnungen der Moleküle, die sich in Form von Kugelwellen im Raum ausbreiten.
Um die Stimmgabel zum Schwingen zu bringen, bedarf es eines Anstoßes, einer Kraft oder, besser gesagt, einer bestimmten Energie. Einen Teil davon strahlt die Stimmgabel ab. Dabei verteilt sich diese Energie gleichmäßig auf der Oberfläche der Kugelwelle, die mit zunehmender Ausbreitung proportional zum Quadrat des Radius r wächst. Die sich ausbreitende Energie, die je Zeiteinheit durch eine Flächeneinheit hindurchtritt - das ist die Schallintensität -, nimmt wegen dieser Verteilung der Energie auf eine immer größer werdende Kugeloberfläche proportional zu 1/r2 ab.
Schlußfolgerung: Alle sonst noch existierenden Effekte wie Absorption, Reflexion, Beugung, Brechung des Schalls einmal weggelassen, nimmt die von einer Schallquelle abgestrahlte Intensität, sie ist gleichbedeutend mit Lautstärke, umgekehrt proportional zum Abstand von der Schallquelle ab, bis sie dann ganz verschwindet. Ist der Abstand von der Schallquelle, das heißt der Radius der betrachteten Kugelwelle, hinreichend groß, so hat der Flächenausschnitt, durch den die je Zeiteinheit hindurchtretende Schallenergie gemessen wird, eine nur noch verschwindend kleine Krümmung: Der Flächenausschnitt erscheint eben, und mathematisch-physikalisch wird aus der Kugelwelle die ebene Welle, mit der in der Akustik, der Lehre des Schalls, wesentlich leichter zu rechnen ist.
Das Billiarden-Spiel der Moleküle
Die Stimmgabel ist von Luft umgeben. Genauer betrachtet, stoßen in jedem Augenblick unzählige Sauerstoff-, Kohlendioxid- und Stickstoffmoleküle auf die Zinken der Stimmgabel und werden von diesen schlicht und einfach reflektiert, wie Elfenbeinkugeln an den Banden des Billardtisches. Befinden sich die Zinken der Stimmgabel nun aber im Schwingungszustand, übertragen sie bei jedem Rückwurf eines jeden Moleküls einen zusätzlichen Impuls, den jedes Molekül bei jedem Zusammenstoß mit einem anderen weitergibt. Auf diese Weise erfolgt die Schallausbreitung sozusagen automatisch. Die mit einem Mikrophon meßbaren Auswirkungen dieser teilchen-kinetischen Vorgänge sind Druckschwankungen Ap. Sie überlagern sich dem konstanten Druck p der Atmosphäre, von dem das Mikrophon nichts merkt, weil er auf beide Seiten der Membran gleich einwirkt.
Eine Momentaufnahme der sich ausbreitenden ebenen Schallwelle ergäbe das folgende Bild: ln Abständen A einer betrachteten Ausbreitungsrichtung treten Verdichtungen der Luftmoleküle auf, dazwischen jeweils in der Mitte Verdünnungen (Bild 2). An den Orten der Verdichtungen ist der Druck größer 1 als der Atmosphärendruck, bei den Verdünnungen liegt er darunter. Der Unterschied ist die Druckschwankung Ap. Der Abstand zwischen zwei aufeinanderfolgenden Verdichtungen oder Verdünnungen entspricht der Wellenlänge A der Schallschwingung.
Bild 2: In der Luft sich ausbreitende Longitudinalwelle. Der Abstand zwischen zwei Verdichtungen, das sind Orte maximalen Drucks, entspricht der Wellenlänge A.
Longitudinal-Wellen laufen in Schwingungsrichtung
Da die Ausbreitungsrichtung der Welle mit der Richtung der Schwingung übereinstimmt, nennt der Akustiker diese Wellenart Longitudinalwelle. In Gasen und Flüssigkeiten gibt es nur diese Wellenart. Die Ausbreitungsgeschwindigkeit c des Schalls in der Normalatmosphäre (20 °C Temperatur) beträgt 343,8 Meter in der Sekunde (m/s). Überschlägig läßt sich besser mit 340 m/s rechnen. Die Dauer einer Schwingung, die sich fortwährend auf gleiche Weise wiederholt, also einer periodischen Schwingung, heißt Periode T. Während der Zeit T breitet sich die Schwingung um die Strecke A aus. Strecke durch Zeit ergibt aber die Geschwindigkeit c. Also gilt:
Und weil die Periode nichts anderes ist als der Kehrwert der Frequenz (also T = 1/f), ergibt sich daraus ein Grundgesetz der Wellenlehre: Somit beträgt die Wellenlänge des 440-Hertz-Kammertons)
Körperschall im inkompressiblen Medium
Schall breitet sich nicht nur in Gasen und Flüssigkeiten aus, sondern auch in Festkörpern. Die Schallgeschwindigkeit ist eine Materialkonstante. ln Wasser von 15 °C beträgt sie rund 1500 m/s und in Eisen sogar über 5800 m/s. ln festen Körpern treten neben Longitudinalwellen auch Biegewellen und Transversalwellen auf. Bei diesen verläuft die Schwingung senkrecht zur Ausbreitungsrichtung. Das schönste Bild einer Transversalwelle ist die an einem gespannten Gummiseil entlanglaufende Welle, wenn das Seil am einen Ende durch einen Schlag angeregt wird. Transversalwellen können nur auftreten, wo Schubspannungen vorhanden sind, was in Flüssigkeiten und Gasen eben nicht der Fall ist.
Für den Menschen hörbar: der Tonfrequenzbereich
Nicht alle Arten Schwingungen der Materie sind als Schall zu bezeichnen. Nur die von der Spezies Mensch hörbaren Materieschwingungen gelten als Schall und somit als Töne, Klänge oder Geräusche. Die Wahrnehmbarkeit von Materieschwingungen hängt von ihrer Frequenz ab. Hörbar sind sie, wenn ihre Frequenzen in den Bereich 20 bis 20.000 Hz (= 20 Kilohertz, kHz) fallen. Er heißt Tonfrequenzbereich. Infraschall, das sind Schwingungen unter 20 Hz, empfindet der Mensch als Erschütterungen.
Im Ultraschallbereich über 20 kHz hören Hunde (Galton-Pfeife) und Fledermäuse (Echo-Ortungssystem) noch Töne, nicht aber der Mensch, jedenfalls nicht mit dem Ohr (es gibt Theorien, denen zufolge sehr hohe Frequenzen mit einigen Teilen des Kopfes wahrgenommen werden können und womöglich auch das Gesamt-Klangbild beeinflussen).
Töne, Klänge, Geräusche: ihre Spektren
Der reine, der Stimmgabel zugeschriebene Sinuston (Bild 3) läßt sich strenggenommen nur mittels Sinusgenerator oder Synthesizer auf elektronischem Weg herstellen. Die von der Stimmgabel abgegebene Druckschwingung beschreibt die Formel
Po bezeichnet die maximale Druckamplitude und t die Zeit.
Sinuston der Frequenz 440 Hz, erzeugt von einem Sinusgenerator, eine mathematisch exakte Sinuskurve.
Aber schon der gleiche Kammerton, auf der leeren a-Saite einer Violine gestrichen, sieht wesentlich komplizierter aus. Grundfrequenz, Wellenlänge und Periodizität sind unverändert, aber die Schwingung selbst entspricht nicht mehr dem schlichten Abbild eines Sinustons (Bild 4).
Kurve der leer gestrichenen a-Saite einer Violine, gestimmt auf Kammerton 440 Hz.
Tatsächlich strahlt die Violine einen Klang ab. Der französische Mathematiker und Ingenieur J. B. Fourier (1768 bis 1830) konnte nachweisen, daß jeder Klang, sofern er nur periodisch ist, sich in eine endliche Reihe von reinen Sinustönen zerlegen läßt (Fourier- Analyse eines Klanges, Bild 5).
Der tiefste im Klang vertretene Ton, im allgemeinen der Grundton, zeichnet verantwortlich für die Tonhöhe. Er erhält die Bezeichnung Partialton erster Ordnung. Die Frequenzen der Partialtöne höherer Ordnung, auch Obertöne genannt, sind ganze Vielfache der Frequenz des Grundtons. Ihre Amplituden p0 nehmen mit wachsender Ordnung ab, bis sie schließlich ganz verschwinden. Dabei ist es nicht so, daß die Frequenzen der Obertöne lük- kenlos die Reihe der natürlichen Zahlen durchlaufen, also wenn der Grundton die Frequenz f hat, 2f, 3f, 4f, . . . nf.
In manchen Klängen überwiegen die geradzahligen Vielfachen des Grundtons (Oboe), in anderen die ungeradzahligen (Klarinette im unteren Register). Bei allen Instrumenten treten in ganz bestimmten Frequenzbereichen, den Formanten (Bild 6), Anhäufungen von Obertönen auf. Die Obertonverteilung und die Formanten bestimmen überwiegend den Klangcharakter und die Klangfarbe der verschiedenen Instrumente. Geräuschen fehlt die Eigenschaft der Periodizität, ihre Frequenzanalyse führt daher auch nicht zu den adretten Obertonreihen musikalischer Klänge.
Bild 6: Die Formanten, Anhäufungen von Obertönen in bestimmten Frequenzbereichen. Oben die Formanten der Vokale, darunter die Formantlage der Doppelrohrblatt- Instrumente unter den Holzbläsern. Die Kenntnis dieser Zusammenhänge hilft bei der Beurteilung von Lautsprecherboxen. Zeigt eine Box beispielsweise eine Anhebung im Frequenzbereich der Umlaute (1,2 bis 1,8 kHz), klingt sie näselnd verfärbt.
Spektren, Steckbriefe der instrumentalen Klangfarben
Das Ergebnis einer Frequenzanalyse läßt sich leicht darstellen. In einem Koordinatensystem mit der Frequenz in Hz auf der x-Achse und Lautstärke der Obertöne auf der y-Achse erscheint jeder Oberton eines Klangs als Linie (Bild 7). Auf diese Weise sind Klänge durch Linienspektren gekennzeichnet. Bei der Flöte ist zum Beispiel der Grundton d1 (288 Hz) am stärksten vertreten, am zweitstärksten die Oktave 576 Hz, gefolgt von ganzen vier schwächeren Obertönen. Ganz allgemein gilt: Je weniger Obertöne das Linienspektrum eines Instruments aufweist, desto weicher wirkt sein Klang.
Bild 7: Steckbrief der Klangfarben. Linienspektren einer Flöte, einer Klarinette, einer Oboe, einer Trompete und der G-Saite einer Violine.
Als schönes Gegenstück dazu erweist sich das Linienspektrum der Trompete: sehr viele Obertöne, darunter zahlreiche, die stärker sind als der Grundton. Deshalb ist der Trompetenklang strahlend brillant. Sehr markant sind auch die Unterschiede zwischen den Spektren der Oboe und der Klarinette. Bei tiefen Tönen des Violoncellos und des Kontrabasses fehlt der Grundton ganz. Der Korpus dieser Instrumente ist im Verhältnis zur Wellenlänge der tiefen Frequenzen zu klein, so daß er sie durch Resonanz nicht verstärken kann.
Dennoch ordnet das Ohr dem Klang die Tonhöhe zu, die dem fehlenden Grundton entsprechen würde. Diesen Effekt, der sich als aus der Hörerfahrung heraus entwikkeltes Empfindungsmerkmal höherer Ordnung erklären läßt, bezeichnet die Psychoakustik als Residuum. Eine optische Parallele solcher Residual-Wahrnehmung veranschaulicht folgende Darstellung:
Bild 8: So wie das Auge die fehlenden Linien im Schriftbild ergänzt, hört das Ohr den fehlenden Grundton hinzu.
Auch Geräusche lassen sich durch Spektren darstellen. Die Frequenzen liegen so eng beeinander, daß sich keine einzelnen Spektrallinien ergeben, sondern eine kontinuierliche Spektralkurve entsteht. So fördert die Analyse einer kleinen Trommel ein Geräuschspektrum zutage. Ihr läßt sich daher auch keine Tonhöhe zuordnen. Im Spektrum eines tiefen Klavierklangs (Bild 9) treten neben Linien auch zwei Geräuschkontinua auf. Hier liegt offensichtlich eine Mischung von Geräusch- und Linienspektrum vor.
Bild 9: Geräuschspektrum einer kleinen Trommel (unten) und das gemischte Spektrum des 64-Hz-Klangs eines Konzertflügels (oben).
Das verräterische Einschwingen der Klänge
Bei allen Musikinstrumenten löst Blasen, Zupfen, Schlagen oder Streichen den Klang aus, das heißt irgendeine Form der mechanischen Anregung, die Materie zum Schwingen bringt. Vom Zeitpunkt des Anspielens bis zum voll entwickelten quasistationären Klang gibt es eine von Instrument zu Instrument unterschiedliche kurze Zeitspanne der Instabilität. Die Obertöne treten nicht alle gleichzeitig in Erscheinung, sondern in einer bestimmten Reihenfolge: Während des Toneinsatzes schwingt der Klang ein (Bild 10).
Bild 10: Einschwingen von Grund und Obertönen einer Trompete bei einem Grundton von 340 Hz
Bei der Trompete entwickelt sich der dritte Oberton innerhalb von 40 Millisekunden (ms), der Grundton erreicht erst nach 115 ms den stabilen Zustand. Bei der Violine schwingt die Oktave am schnellsten ein, während der Grundton über 90 ms benötigt, bis er voll ausgebildet ist. Dieses Einschwingverhalten ist ein weiteres bestimmendes Element für die Klangfarbe und den Klangcharakter eines Instruments. Auf Band aufgezeichnete Dauertöne einer Oboe und einer Flöte sind bei abgeschnittenen Toneinsätzen schwerer voneinander zu unterscheiden.
Schalldruck, Schalldruckpegel
Die Maßeinheit für den Schalldruck ist wie für jeden anderen Druck das Newton je Quadratmeter (N/m2). In der Akustik erweist es sich jedoch als zweckmäßig, ein anderes, dimensionsloses Maß zu verwenden, den Schalldruckpegel. Er wird in Dezibel (dB) angegeben und ist wie folgt definiert:
Da auch die zu den akustischen Größen gehörenden elektrischen Größen wie Spannung oder Leistung in dB angegeben werden, kennzeichnet SPL als Abkürzung von „Sound Pressure Level“ hinter dB den Schalldruckpegel, also dB SPL.
Schallereignis und subjektive Hörempfindung
Die Hörbarkeit von Tönen hängt von ihrer Lautstärke und Frequenz ab. Die Lautstärke, ab der ein von Null allmählich lauter werdender Ton einem Testpersonen-Kollektiv gerade hörbar wird, heißt Hörschwelle. Für jede Frequenz ergibt sich eine andere Hörschwelle, wie die dicke untere Kurve in Bild 11 mit den Kurven gleicher Lautstärke verdeutlicht. Diese Hörschwellen-Kurve zeigt, daß das menschliche Gehör alles andere als ein frequenzlinearer Schallempfänger ist.
Bild 11: Kurven gleicher Lautstärkepegel. Die Skalen auf der linken Seite geben Aufschluß über den Zusammenhang von Schalldruck und Schalldruckpegel.
Seine größte Aufnahmebereitschaft erreicht das Ohr zwischen 2000 und 5000 Hz. Am empfindlichsten reagiert es auf Töne von 4000 Hz. Für höhere und vor allem für Frequenzen unterhalb von 250 Hz steigt die Hörschwelle rapide. Ein tiefer Baßton von 30 Hz muß im Ohr mit einem um über 50 dB höheren Schalldruckpegel ankommen als der 4000-Hz-Ton, damit er gerade hörbar wird.
Diese verbogene Empfindlichkeitskennlinie des menschlichen Ohrs ist das Ergebnis von Millionen Jahren Evolution und Überlebenskampf. Der Mensch, vor nicht allzulanger Zeit noch Jäger und Gejagter, konnte um so besser überleben, je früher er auf verräterisches Blätterrascheln und auf andere von seinen Feinden verursachte Geräusche reagierte. So entwickelte das menschliche Ohr im Verlaufe der Evolution seine größte Empfindlichkeit im Frequenzbereich 2000 bis 5000 Hz. Wäre sie dort nur um weniges größer, würde dem Menschen schon das fortwährende Rauschen der molekularen Wärmebewegung zur Last fallen. Auch die Erhöhung der Hörschwelle zu tiefen Frequenzen hin hat natürliche Gründe. Gäbe es sie nicht, würden Trittschall und Komponenten der Windgeräusche das Ohr belästigen. In Jahrmillionen entwickelte der Mensch sein Gehör evolutiv zum optimalen Schallempfänger.
Lautstärke und der dimensionslose Lautstärkepegel
Die Kurven in Bild 11 zeigen auch den Zusammenhang zwischen effektivem Schalldruckpegel und subjektiv empfundenem Lautstärkepegel, experimentell mit einer ausreichenden Anzahl Versuchspersonen ermittelt. Ein 1000-Hz-Ton veränderbaren Schalldruckpegels dient als Bezug. Die Testpersonen geben an, bei jeweils welchem Schalldruckpegel sie einen Ton anderer Frequenz als gleich laut empfinden.
Beide Töne besitzen dann definitionsgemäß den gleichen Lautstärkepegel in Phon. Das Ergebnis dieser systematisch durchgeführten Untersuchungen liefert die Kurven gleicher Lautstärke. Alle Töne, unabhängig von ihrer Frequenz, deren Lautstärkepegel auf der gleichen Kurve liegen, werden als gleich laut empfunden. Die Kurven heißen aus diesem Grunde auch Isophone. Karl Breh
Über das Hören II
Die letzte Folge wies den Zusammenhang auf zwischen dem effektiven Schalldruckpegel und dem subjektiv empfundenen Lautstärkepegel. Er wird experimentell mit einer ausreichenden Anzahl Versuchspersonen ermittelt, wobei ein 1000-Hertz-Ton veränderbaren Schalldruckpegels als Bezug dient. Die Testpersonen müssen angeben, bei jeweils welchem Schalldruckpegel sie einen Ton anderer Frequenz als gleich laut empfinden.
Beide Töne besitzen dann definitionsgemäß den gleichen Lautstärkepegel in Phon. Die Darstellung der Versuchsergebnisse in Abhängigkeit von der Frequenz und dem Schalldruckpegel führt zu den Kurven gleichen Lautstärkepegels in Phon (stereoplay 8/1984, Seite 118). Die unterste Kurve dieser Kurvenschar gibt an, bei welchem Schalldruckpegel die verschiedenen Töne des Tonfrequenzbereichs für das menschliche Ohr gerade hörbar werden. Aus diesem Grunde heißt diese Kurve auch Hörschwelle.
Als Empfangsorgan verarbeitet das menschliche Ohr demnach einen Schalldruckbereich von sieben Zehnerpotenzen, also das Verhältnis von 1 zu 10 Millionen. Die Umrechnung mittels Logarithmus und die Angabe in Dezibel führen dazu, daß die Schalldruckpegel wesentlich übersichtlicher von 0 bis 140 Dezibel SPL variieren.
Lautstärke und Lautheit als Maß für die Empfindung
Eine Erhöhung des Schalldruckpegels um 10 Dezibel beziehungsweise des Lautstärkepegels um 10 Phon (bei 1 Kilohertz) wird als doppelte Lautstärke empfunden. Zwei Schallquellen gleichen
Schalldruckpegels (zum Beispiel von 60 Dezibel) klingen aber nicht doppelt so laut wie eine allein. Vielmehr beträgt der Gesamtschalldruckpegel
Der Schalldruckpegel wächst also nur um 6 Dezibel und nicht um 10, was doppelter Lautstärke entspräche. Die Schallintensität, die dem Quadrat des Schalldrucks proportional ist, wächst bei doppelter Lautstärke sogar nur um 3 Dezibel - sie ist der Schallenergie und Schallleistung proportional.
Aus diesem Sachverhalt erklärt sich der Wunsch nach einer Skala, bei der eine Verdoppelung des Zahlenwertes auch einer Verdoppelung des Lautstärkeempfindens, also der Lautheit entspricht. Dies leistet die ebenfalls empirisch ermittelte sone-Skala (Bild 1). Versuche zeigten, daß es zweckmäßig ist, einer Lautstärke von 40 Phon die Lautheit von 1 sone zuzuordnen. Einem doppelt so laut empfundenen Schallereignis entspricht dann die Lautheit von 2 sone und einem vierfach so laut empfundenen die Lautheit von 4 sone.
Bild 1 : Lautheit in sone und Lautstärke in Phon: Bei Lautstärken über 40 Phon entspricht einer Zunahme um 10 Phon die Verdopplung der subjektiven Lautstärkeempfindung (Lautheit).
Der Zusammenhang zwischen Lautstärke und Lautheit ist nicht linear. Bei geringen Lautstärken nimmt das Lautheitsempfinden schneller zu als bei höheren. Oberhalb von 40 Phon entspricht einer Zunahme der Lautstärke von 10 Phon die Verdoppelung der Lautheit.
Wieviel Violinen spielen doppelt so laut wie eine einzige?
Eine Violine allein erzeuge eine Lautstärke von 60 Phon, was 4 sone entspricht. Um die Lautheit auf 8 sone zu verdoppeln, muß die Lautstärke um 10 Phon von 60 auf 70 Phon erhöht werden. Dies leisten 10 Violinen, denn
100 Violinen würden 16 sone und 1000 Violinen ganze 32 sone erzeugen.
Jetzt wird wohl klar, weswegen ein Symphonieorchester 16 erste, 14 zweite Violinen, 12 Bratschen, 10 Violoncelli und 8 Kontrabässe beschäftigt, wenn es in voller Besetzung aufspielt.
1200 cents sind eine Oktave; das Ohr hört schon 5 cents
Wichtig für die Auslegung der Lautstärkesteller von HiFi-Verstärkern ist die Frage, wie groß Pegeländerungen der Lautstärke mindestens sein müssen, damit sie das Ohr überhaupt wahrnimmt. Auch hier ergaben Versuche mit Testpersonen, daß Schalldruckänderungen von 12,2 Prozent oder Intensitätsänderungen von 25,9 Prozent entsprechend 1 Dezibel gerade gut hörbar sind. Zumindest gilt dies bei mittleren Frequenzen und Pegeln.
Die Skalenteilung von Schalldruckpegel und Lautstärke sieht praktischerweise so aus, daß ihre Einheit (1 Dezibel oder 1 Phon) gerade der Wahrnehmbarkeitsschwelle für Lautstärkeunterschiede entspricht. Deswegen besitzen die Lautstärkesteller von HiFi-Verstärkern tunlichst logarithmische Kennlinien.
Eine andere Gehörschwelle betrifft Frequenzunterschiede: Wie weit müssen zwei Töne auseinanderliegen, damit das Ohr sie als getrennte Töne wahrnimmt? Der Musiker nennt das Frequenzverhältnis zweier Töne Intervall. Verhalten sich die Frequenzen zweier Töne zum Beispiel wie 2:1, so entspricht ihr Intervall einer Oktave. Die Unterteilung der Oktave in 1200 gleiche Stufen führt zum cent, der internationalen Einheit des Intervalls. Das Intervall x in cent zweier Töne mit den Frequenzen f 2 und f 1 berechnet sich daher nach folgender Formel:
also
Für die Oktave ergeben sich aus dieser Formel mit dem Wert 2:1 für f2:f1 die definitionsgerechten 1200 cents, für die reine Quint f2:f1 = 3:2 702 cents und für den temperierten Halbton f2 : f1 = 53:50 100 cents. Ein mit 2 Umdrehungen je Minute oder um 6 Prozent zu schnelllaufender Plattenspieler transponiert die auf der Platte aufgezeichnete Musik um 100,9 cents, das heißt um einen Halbton nach oben.
Nun zur Beantwortung der Frage, wieviel cents ein Intervall bei verschiedenen Frequenzen zählen muß, damit das Ohr die Töne trennen kann. Im Bereich 1050 bis 4200 Hertz - das entspricht dem Tonhöhenbereich c3 bis c5 - ist die Empfindlichkeit für das Intervallhören mit nur 5 cents am größten; das ist nur ein Fünfhundertstel eines temperierten Halbtons.
Zu höheren und zu tieferen Frequenzen nimmt die Empfindlichkeit erwartungsgemäß ab. Sie beträgt beim großen C (65,4 Hertz) und beim c7 (16 744 Hertz) nur noch 15,6 cents. Unterscheiden sich im empfindlichsten Bereich zwei Töne nur um 5 cents, trennt sie das Ohr bereits. Beim großen C müssen sie hierfür um 0,6 Hertz und beim c7 um nicht weniger als 150 Hertz auseinanderliegen.
Empfindlichkeit gegenüber Tonhöhenschwankungen
Die für die HiFi-Wiedergabe wichtigere Empfindlichkeit des Ohres gegenüber Tonhöhenschwankungen hängt mit dem Intervallhören zusammen, nur daß hierfür noch zwei weitere Einflußgrößen vorliegen: Die Frequenz, mit der die Tonhöhenschwankung erfolgt (Modulationsfrequenz), und die Lautstärke. Daß sie auch von der Frequenz des schwankenden Tones (Trägerfrequenz) abhängt, ist nach dem Vorausgegangenen ohnehin klar.
Bild 2: Empfindlichkeit des menschlichen Gehörs gegenüber Tonhöhenschwankungen verschiedener Trägerfrequenzen (x-Achse) bei verschiedenen Lautstärken (y-Achse). Die an die Kurven gesetzten Zahlenwerte, geteilt durch zehn, ergeben die relative Tonhöhenschwankung in Prozent. Bis herab zu 8 Dezibel Schalldruckpegel ist das Ohr für solche Tonhöhenschwankungen am empfindlichsten, deren Trägerfrequenz knapp über 3000 Hertz liegt.
Bild 2 zeigt den nach Feldtkeller und Zwicker experimentell ermittelten Zusammenhang. Das Ohr erweist sich Tonhöhenschwankungen gegenüber am empfindlichsten, wenn die Modulationsfrequenz, das heißt die Frequenz, mit der die Schwankung erfolgt, 4 Hertz beträgt. Das Bild zeigt die Kurvenschar der Hörschwellen in Abhängigkeit von der Trägerfrequenz f0 (x-Achse) und der Lautstärke (y-Achse). Als Parameter dienen die relativen Tonhöhenschwankungen Af/f0. Schwankt die Tonhöhe bei der Trägerfrequenz f0 = 3000 Hertz um ±3 Hertz, beträgt
Dies entspricht der obersten Kurve (mit dem Zahlenwert 2 bezeichnet). Aus ihrem Verlauf ergibt sich, daß die maximale Empfindlichkeit gegenüber den von der DIN 45 500 als Mindestwert geforderten 0,2 °/o Tonhöhenschwankungen bei einer Lautstärke von 70 dB dann vorliegt, wenn die Trägerfrequenz geringfügig über 3000 Hertz liegt. Dies macht verständlich, warum die relativen Tonhöhenschwankungen in der HiFi- Meßtechnik mit der Trägerfrequenz 3150 Hertz zu messen sind.
Die Verdeckung eines Tons durch einen anderen oder Rauschen
Schon die tägliche Erfahrung lehrt, daß ein sehr lautes Schallereignis ein leiser auf das Ohr einwirkendes teilweise oder ganz verdecken kann. Vielleicht ziehen manche Diskotheken den Schallpegel ihrer zu rhythmischen Zuckungen anregenden Musik auch deshalb bis an die Schmerzgrenze hoch, damit schon gar niemand auf die Idee kommt, sich unterhalten zu müssen.
Aber der Verdeckungseffekt spielt auch bei sehr viel subtileren Dingen eine Rolle. Komponisten und Arrangeure, die Melodien instrumentieren, müssen darüber Bescheid wissen, wenn sie nicht riskieren wollen, daß beabsichtigte Effekte erst gar nicht zur Geltung kommen. Das bei HiFi-Wiedergabe noch sinnvolle Pianissimo findet dort seine natürliche Grenze, wo der leiseste Ton sozusagen unter die Decke des eventuell vorhandenen Restrauschens schlüpft und dadurch dem Ohr entschwindet. Auch Umgebungsgeräusche, die sich weder im Konzertsaal geschweige denn im privaten Wohnraum ganz vermeiden lassen, setzen der Ausweitung der Dynamik bis in die Nähe der natürlichen Hörschwelle schon eine weit frühere Grenze.
Bild 3 zeigt die Mithörschwelle eines Tons variabler Frequenz (Testton), wenn gleichzeitig ein 80 Phon lauter Störton von 1 Kilohertz mitmischt. Im Frequenzbereich bis 500 Hertz ist der Testton hörbar, sobald er die Ruhehörschwelle überschreitet. Im Frequenzbereich 500 Hertz bis 1 Kilohertz verdeckt der 1-Kilohertz-Ton den Testton, der, um hörbar zu sein, bis zu 50 Dezibel Anhebung verlangt. Das ist auch zwischen 1 und 2 Kilohertz der Fall.
Bild 3: Mithörschwelle eines Testtons variabler Frequenz (x-Achse) bei Verdeckung durch einen Störton von 1 Kilohertz und 80 Phon Schallpegel. Im Bild ist angegeben, welche Töne im jeweiligen Frequenzbereich hörbar sind.
Eine weitere Anhebung des Testtons in diesem Frequenzbereich macht nicht diesen hörbar, sondern einen Differenzton, dessen Frequenz unterhalb der des Störtons liegt. Erst oberhalb einer neuen, höheren Schwelle erscheint neben dem Störton der Testton selbst wieder, zusammen mit dem Differenzton. Fällt die Frequenz des Testtons mit der des Störtons zusammen oder beträgt sie nahezu das Doppelte oder Dreifache, treten in einem weiten Bereich des Schallpegels Schwebungen auf. Diese Frequenzgebiete sind in Bild 3 dunkel gerastert. Erst bei Frequenzen über 10 Kilohertz verschwindet die Verdeckung des Testtons durch den Störton wieder ganz. Die Mithörschwelle fällt dann wieder mit der normalen Hörschwelle zusammen, wie bei tiefen Frequenzen.
Einen Verdeckungseffekt bewirkt auch Weißes Rauschen, das näherungseise als Zwischenstationsrauschen bei UKW-Empfang auftritt, das aber auch vorliegt, wenn ein Verstärker rauscht. Die Ermittlung der Hörschwelle im Übertragungsbereich bei Vorhandensein von Weißem Rauschen unterschiedlicher Pegel führt zu der aus Bild 4 ersichtlichen Kurvenschar. Sie zeigt den Pegel, den ein Sinuston veränderlicher Frequenz haben muß, um durch das Rauschen hindurch hörbar zu werden. Als Parameter dient der Rauschpegel Lwr. Zwar wirkt sich die Verdekkung auf hohe Töne um rund 10 Dezibel stärker aus als auf tiefe, aber die Mithörschwelle verläuft wesentlich linearer als die Ruhehörschwelle. Für die HiFi-Praxis bedeutet dies, daß Weißes Rauschen leise Töne verdeckt - hohe stärker als tiefe - was auf eine Einengung der übertragbaren Dynamik hinausläuft: Das in Dezibel ausgedrückte Verhältnis der größten zur leisesten noch hörbaren Lautstärke verringert sich.
Erfreulicherweise kann auch umgekehrt ein sehr lauter Ton oder Klang leises Rauschen verdecken, ein Effekt, den verschiedene Rauschunterdrückungsschaltungen zu nutzen wissen.
Bild 4: Mithörschwelle eines Tons variabler Frequenz (Testton) bei Vorhandensein von Weißem Rauschen unterschiedlichen Pegels Lwr. Das Weiße Rauschen linearisiert die Hörschwellenkurven.
Richtcharakteristik: Fähigkeit des Ohres, Schallquellen zu orten
Anders als das Auge, das nur über einen bestimmten Sehwinkel verfügt, nimmt das Ohr Schallereignisse aus allen Richtungen wahr. Beidohriges, das heißt binaurales Hören vorausgesetzt, verfügt das Ohr dennoch über die Fähigkeit des Richtungshörens und somit der Orientierung im Raum. Eine Ursache für diese Fähigkeit ist Bild 5 zu entnehmen. Bei um den Winkel a zur Blickrichtung seitlich versetzter Schallquelle muß der Schall zum abgewandten Ohr die Wegstrecke Al mehr zurücklegen als zum zugewandten Ohr. Daher gelangt er um das Zeitintervall At später zum abgewandten Ohr.
Abgesehen von der Intensitätsabnahme infolge des längeren Wegs und Abschattung des abgewandten Ohrs durch den Kopf trägt auch die Laufzeitdifferenz
(c = Schallgeschwindigkeit) zur Ortung der Schallquelle bei. Für einen Winkel a = 30 Grad und einen Ohrabstand d = 0,17 Meter ergibt sich AI = d • sin a = 0,085 Meter und daraus die Laufzeitdifferenz
Das menschliche Gehirn wertet diese Differenz aus und setzt sie in einen Ortungswinkel um. Diese Fähigkeit funktioniert bis herab zu 3 • 10-5 Sekunden, was einem Hörwinkel von nur 3 Grad entspricht. Tatsächlich beruht das räumliche Hören auf der gleichzeitigen Auswertung von Pegel- und Laufzeitdifferenzen. Nach dem Gesetz der ersten Wellenfront ortet das Ohr den Schall aus der Richtung der zuerst eintreffenden
Bild 5: Entstehung der Laufzeitdifferenz des Schalls bei räumlichem Hören und Schalleinfall von der Seite.
Schallwelle, sobald die Laufzeit des Schalls von den beiden Boxen zum Hörer sich um mehr als 1 Millisekunde unterscheidet. Dies würde bedeuten, daß der Abstandsunterschied des Stereo-Hörers von den beiden Lautsprechern 34 Zentimetern nicht überschreiten darf. Doch die Schallverspätung am einen Ohr läßt sich durch die Lautstärkeverminderung am anderen kompensieren und umgekehrt. Nur diesem Effekt ist es zu verdanken, daß bei stereofonem Hören die nutzbare Hörzone nicht punktförmig ist. Bild 6 zeigt die Richtcharakteristiken des menschlichen Gehörs bei binauralem Hören für vier verschiedene Frequenzen. Den Ohrmuscheln ist es zu verdanken, daß von hinten einfallender Schall um bis zu 15 Dezibel schwächer wahrgenommen wird, außer im Bereich um 2 Kilohertz, in dem wohl Beugungseffekte um die Ohrmuschel die Dämpfung verhindern. Diese frequenzabhängige Richtungscharakteristik (Abschattung des Ohres) führt beim Hören des Originals zu deutlichen Klangfarbenunterschieden und unterstützt entscheidend das Richtungshören.
Bild 6: Richtcharakteristiken des Gehörs bei binauralem Hören für vier verschiedene Frequenzen. Bei 1 Kilohertz reagiert das Ohr auf Schall am empfindlichsten, der aus der Blickrichtung einfällt. Trifft er von hinten auf den Hörer, erscheint er um 5 Dezibel schwächer. Bei 2,25 Kilohertz liegt die Richtung größter Empfindlichkeit seitlich, während sie sich bei 4,5 und 8 Kilohertz weiter nach vorne verlagert.
Alles in allem genommen: Das menschliche Gehör verfügt über ein erstaunliches Auflösungsvermögen für Schalleinfallsrichtungen. Im Winkelbereich ±45 Grad zur Blickrichtung sind Stufungen von jeweils 3 Grad feststellbar, im Winkelbereich 45 bis 90 Grad Stufungen von 4,5 Grad. Als nicht minder leistungsfähig erweist sich das zeitliche Auflösungsvermögen des Ohrs: Um sich auf einen Richtungswechsel zwischen zwei Schallquellen einzustellen, benötigt das Ohr etwa 150 Millisekunden, auf Richtungswechsel zwischen vorne und hinten reagiert es mit einer Zeitverzögerung von 250 Millisekunden. Diese Zeiten entsprechen der Dauer extrem kurzer Noten. Die Fähigkeit des menschlichen Gehörs, unter dem Evolutionsdruck des Überlebenskampfes entwickelt, erweist sich auch als hochspezialisiert für raumgliederndes Durchhören komplexer Schallereignisse, wie sie große Symphonieorchester erzeugen. Das aber versteht sich fast von selbst, denn der Mensch schuf die Kunstmusik nach seinen eigenen Maßstäben, zu denen auch die Eigenschaften des Gehörsinns zählen. Karl Breh
Über das Hören III
Zielsetzung der High Fidelity ist die vollendete Wiedergabe auf Tonträger aufgezeichneter Musik in der Privatsphäre des Menschen. Dabei darf das musikalische Werk nicht nur nichts von seiner Substanz einbüßen, es sollen vielmehr auch seine subtilsten klanglichen Reize voll zur Entfaltung gelangen. Dies läßt sich nur unter Berücksichtigung der in den Folgen I und II in stereoplay 9 und 10/1984 beschriebenen Eigenschaften des menschlichen Gehörs verwirklichen.
Künstliche Obertöne verändern die Klangfarben
In allen an der Übertragungskette von der Originalaufführung bis zur Wiedergabe im Wohnraum beteiligten Komponenten können künstliche Obertöne entstehen, die im Originalklang nicht vorhanden waren. Da die Verteilung und die Amplituden der im Klang eines Instruments enthaltenen Obertöne dessen Klangfarbe bestimmen, müssen künstliche Obertöne eben diese Klangfarbe verändern. Allerdings nur, wenn ihre Amplituden einzeln oder in der Summe bestimmte Werte überschreiten und um so hörbarer, je höher deren Ordnungszahl ist.
Maße für diese künstlichen Obertöne sind je nach angewandtem Meßverfahren der Klirrfaktor, der Intermodulationsgrad oder die meist höhere Ordnungszahlen aufweisenden dynamischen Verzerrungen (Transient Intermodulation, abgekürzt TIM), die in Transistorverstärkern auftreten können. Sie sind besonders unbeliebt, weil sie sich unter Umständen auch dann schon gehörmäßig bemerkbar machen, wenn ihre Amplituden so klein sind, daß es Mühe macht, sie überhaupt zu messen. Diese künstlichen Obertöne auszumerzen oder sie zumindest so niederzuhalten, daß sie auch dem geschultesten Ohr verborgen bleiben, galt und gilt immer noch das trickreiche Sinnen aller Entwickler von HiFi-Komponenten. Dabei müssen Wandler und Verstärker auch noch so schnell und trägheitsarm reagieren, daß sie steilen Impulsen des Schallereignisses und dem komplizierten, klangbestimmenden Tonansatz der verschiedenen Instrumente flink genug folgen können. Auch dies ist eine stete Herausforderung für die Entwickler von Tonabnehmern, Verstärkern, Mikrophonen und ganz besonders von Lautsprechern.
Der Lautsprecher, Erzeuger von artfremden Formaten
Eine elementare Qualitätsforderung an jede Komponente der HiFi-Übertragungskette ist die Geradlinigkeit des Frequenzgangs: Ein am Eingang beispielsweise eines Verstärkers eingespeister Sinuston konstanter Amplitude, der alle Frequenzen des Übertragungsbereichs von 20 bis 20 000 Hertz durchläuft, stellt sich im Amplituden-Frequenz-Diagramm, am Verstärkereingang gemessen, als Parallele zur Frequenzachse dar. Der Frequenzgang des Verstärkers ist dann linear, wenn an seinem Ausgang das eingespeiste gleitende Sinussignal wieder als exakte Parallele zur Frequenzachse erscheint. Bei den meisten elektronischen Komponenten, übrigens auch beim CD-Spieler, ist die Linearität des Frequenzgangs heute kaum mehr ein Problem. Lediglich manche Tonabnehmer und Cassettengeräte spielen oft nicht mit - Tonzellen sind auf den richtigen Abschluß und Recorder auf die exakte Einmessung beziehungsweise die passende Cassette angewiesen.
Noch kritischer verhält sich der Lautsprecher und auf kompliziertere, aber dennoch einfacher zu beherrschende Weise auch der Kopfhörer. Beim Lautsprecher heißt der Frequenzgang Schalldruckkurve. Der ideale Lautsprecher würde unter anderem den gleitenden Sinus in eine geradlinige Schalldruckkurve umwandeln. In voller Strenge gibt es diesen Lautsprecher bis heute nicht. Weniger gute Vertreter ihrer Gattung produzieren gelegentlich im Baßbereich ausgeprägte Resonanzen, das heißt mehr oder weniger steile Anhebungen in der Schalldruckkurve, was die Baßwiedergabe verfälschen muß. Besonders kritisch reagiert das Ohr auf Anhebungen oder Dellen in seinem empfindlichsten Hörbereich von etwa 1000 bis 5000 Hertz. Sie wirken wie das Auftreten oder Fehlen von Formanten, verfärben eine Flöte in Richtung Oboe und umgekehrt oder verändern das Timbre einer Gesangsstimme. Bach sagte: „Macht mir die Quinten rein.“ Der Lautsprecherentwickler postuliert in Abwandlung: „Macht mir die Mitten sauber.“
High Fidelity
Das Ohr ist nicht gerade ein idealer HiFi-Empfänger. Von geradlinigem Frequenzgang keine Spur. Je geringer die Lautstärke, desto unempfindlicher reagiert es auf Bässe, und desto mehr verschiebt sich die Klangbalance zu den Mitten hin, denn auch die Höhen treten zurück, wenn auch nicht so stark (Kurven gleicher Lautstärkepegel, stereoplay 1984). Die Konsequenz dieses Sachverhalts: HiFi-Wiedergabe im strengen Sinne ist nur bei annähernd Originallautstärke möglich.
1. Empfehlenswerte physiologische Lautstärkekorrektur für den Fall, daß Lautstärkesteller und Loudness getrennt sind. Uberlautstärken machen eine Absenkung der Bässe erforderlich.
2. Empfehlenswerte physiologische Lautstärkekorrektur für den Fall, daß Loudness und Pegelsteller in üblicher Weise gekoppelt sind.
Wer aber außer dem Eigenheimbewohner möglichst in abgeschiedener Lage kann es sich schon leisten, seine Popmusik, seinen Bruckner oder donnernde Liszt-Transkriptionen vom Bösendorfer Imperial mit satten 80, 90, in den Spitzen gar 100 Phon abzuhören, ohne den permanenten Kriegszustand mit seinen Nachbarn zu riskieren? Abgesehen vom Kopfhörer, dessen Hörproblematik hier zunächst einmal übergangen sei, schafft die gehörrichtige Lautstärkeregelung erste Hilfe. Viele HiFi-Verstärker verfügen über eine solche physiologische Lautstärkekorrektur, abgekürzt auch Loudness genannt. Allerdings sind die der selektiven Ohrempfindlichkeit Rechnung tragenden Kennlinien längst nicht bei allen Geräten ideal ausgelegt. Die Bilder 1 und 2 zeigen zwei Vorschläge für optimale Auslegung, das erste für den Fall, daß Loudness und Pegelsteller (Volume) getrennt wirken, das zweite, wenn beide in üblicher Weise gekoppelt sind.
Wer lauter hört, als es dem Original entspricht, muß übrigens ebenfalls korrigieren: Im Baßbereich rücken die Kurven gleicher Lautstärke dichter zusammen. Somit bewirkt eine Pegeländerung im Baß eine größere Lautstärkeänderung als bei höheren Frequenzen. Eine Steigerung des Schalldruckpegels bei 50 Hertz von 60 auf 90 Dezibel entspricht einer Lautstärkezunahme von 35 auf 75 Phon, bei 1000 Hertz dagegen nur von 60 auf 90 Phon. Die Folge: Bei Überlautstärken wird das Klangbild baßlastig, ohne daß die Lautsprecher etwas dafür können.
Das 100-Mann-Symphonieorchester im normalen Wohnraum
Das dreifache Pianissimo eines voll besetzten Symphonieorchesters verhaucht im akustischen Untergrund des Konzertsaals, der, wenn das Publikum extrem diszipliniert ist, kaum unter 40 Dezibel absinkt. Im Fortissimo- Ausbruch aller Instrumente erreicht dieses Symphonieorchester Schallpegel über 100 Dezibel. Der Dynamikumfang überschreitet demnach gut und gerne 60 Dezibel. Bei Compact Discs beträgt der übertragbare Dynamikumfang, sofern auch digital aufgezeichnet wurde, 80 Dezibel. Eine leistungsfähige HiFi-Anlage vermag demnach im wahrsten Sinne des Wortes spielend die Originaldynamik eines ausgewachsenen Symphonieorchesters in den Wohnraum zu projizieren. Weil die Mitmieter in der Regel dagegen Einspruch erheben, hilft der Toningenieur schon bei der Aufnahme, eine natürlich wirkende „Heim-Dynamik“ herzustellen. Das erreicht er auf trickreiche Weise dadurch, daß er den Pegel vor einem Fortissimo-Ausbruch sanft und somit fast unmerklich reduziert, um so dem Fortissimo die erforderliche Kontrastwirkung zu verschaffen. Um ein Pianissimo dramaturgisch zu unterstützen, hebt er umgekehrt die Lautstärke der vorausgehenden Passage an. Auf diese Weise bleibt die psychoakustische Wirkung der Dynamik weitgehend erhalten.
Bewertungsfilter ermöglichen ohrgerechte Messungen
Die einzige rein objektive Vergleichsmöglichkeit zwischen HiFi-Komponenten bietet die Messung. Um sie in einen realistischen Bezug zu den durchschnittlichen Eigenschaften des Ohrs zu bringen, sind Bewertungsfilter erforderlich. So ist, wie aus „Über das Hören II“ (stereoplay 10/1984) hervorging, die Empfindlichkeit des Ohrs gegenüber Tonhöhenschwankungen am größten, wenn die Modulationsfrequenz 4 Hertz beträgt. Tonhöhenschwankungen unter oder über 4 Hertz registriert das Ohr weniger kritisch. Liegen sie über 4 Hertz, führen sie zu einer Art Rauhigkeit des Klangs.
Die in stereoplay 10/1984 abgebildete Kurvenschar zeigte ferner, daß die Empfindlichkeit des Ohrs gegenüber Tonhöhenschwankungen am größten ist, wenn die schwankende Trägerfrequenz zwischen 1 und 4 Kilohertz liegt. Aus diesem Grunde erfolgt die Messung der Tonhöhenschwankungen von Plattenspielern und Tonbandgeräten mit der Trägerfrequenz von 3150 Hertz, wobei zwischen das zu messende Gerät und das Meßgerät ein Bewertungsfilter geschaltet ist. Bild 3 zeigt die Kennlinie dieses Bewertungsfilters. Es läßt Tonhöhenschwankungen von 3 bis maximal 4 Hertz passieren und bedämpft höher- und tieferfrequente progressiv nach Maßgabe der Ohreigenschaften.
3. Kennlinien des Bewertungsfilters zur Messung von Tonhöhenschwankungen.
Auch zur Messung der Rumpel-Fremdspannung und der Rumpel-Geräuschspannung von Plattenspielern kommen Bewertungsfilter zum Einsatz. Bild 4 zeigt die Bewertungskurven. Bei der ohrgerechten Messung der Rumpel-Geräuschspannung läßt das Filter Rumpelspannungen zwischen 250 und maximal 400 Hertz zum Meßgerät durch, während es die für das Ohr weniger auffälligen höher- und tieferfrequenten mit einer Flankensteilheit von 12 Dezibel je Oktave bedämpft. Die Messung der Rumpel-Fremdspannung nimmt auf die abnehmende Empfindlichkeit des Ohrs zu tiefen Frequenzen hin keine Rücksicht. Deshalb verläuft die Filterkennlinie bis herab zu 8 Hertz linear. Generell sind alle als Geräuschspannungen ausgewiesenen Meßergebnisse mittels Filter ohrbezogen, die als Fremdspannungen bezeichneten hingegen nicht.
4. Kennlinien des Bewertungsfilters für die Messung von Rumpel- Fremdspannungs- und Rumpel-Geräuschspannungsabstand.
Das Ohr, ein raffiniertes Wunderwerk des Mikrophonbaus
Bild 5 zeigt eine schematische Darstellung des äußeren, mittleren und inneren Ohrs. Das Trommelfell, eine etwa 1 Quadratzentimeter große dünne Membran, schließt den äußeren Gehörgang gegen das Mittelohr ab. Dahinter befindet sich ein mit Luft gefüllter Hohlraum, die Paukenhöhle. Dieser wiederum steht durch eine enge Röhre, Tuba Eustachii genannt, mit dem Rachen in Verbindung und wird bei jedem Schluckvorgang von dort belüftet. Wäre dies nicht so, würde jede langsame Änderung des Luftdrucks, beispielsweise in einem Flugzeug, zu dem bekannten „Druck auf den Ohren“ führen, der ja auch tatsächlich auftritt, wenn der Druckausgleich infolge einer Schleimhautschwellung nicht funktioniert.
5. Schematische Darstellung von äußerem, mittlerem und innerem Ohr. H = Hammer, A Amboß, S = Steigbügel. Die gestrichelten Konturen von H, A und S geben die Extremlage der Knöchelchen an, die sie bei Beschallung einnehmen können.
In der Paukenhöhle sitzen drei Gehörknöchelchen: Hammer, Amboß und Steigbügel. Der Hammer ist mit einem seiner Fortsätze am Trommelfell angewachsen. Das Trommelfell wirkt ähnlich wie eine Mikrophonmembran, indem es durch die Druckschwankungen des Schalls in Schwingungen versetzt wird. Über Hammer, Amboß und Steigbügel, dessen Fußplatte sich in eine Knochenöffnung, das ovale Fenster, einfügt, werden die Schallschwingungen wie über eine Leiterkette vom Trommelfell zum ovalen Fenster und somit an das Innenohr übertragen. Das innere Ohr liegt eingebettet im Knochen des Felsenbeins. Es besteht aus zwei Teilen, dem Gleichgewichtsorgan und dem Hörorgan, wegen seiner Form Schnecke (Cochlea) genannt. Sie besteht aus drei übereinanderliegenden schlauchförmigen Kanälen, die spiralartig in etwa zweieinhalb Windungen aufgewickelt sind. Bild 6 zeigt einen grob schematischen Schnitt durch die menschliche Schnecke und Bild 7 den eingezeichneten Ausschnitt aus der oberen Windung. Die spiralig aufgewickelten Kanäle sind mehrfach angeschnitten. Sie tragen die Bezeichnungen Scala vestibuli, Scala media und Scala tympani. Der Steigbügel grenzt mit seiner Fußplatte über das ovale Fenster an die mit Flüssigkeit gefüllte Scala vestibuli. Auch die anderen beiden Scalen sind mit Flüssigkeit gefüllt, vestibuli und tympani mit Perilymphe, die Scala media mit Endolymphe.
6. Grob schematischer Schnitt durch die Schnecke. Die spiraligen Windungen sind mehrfach angeschnitten. Der eingezeichnete Ausschnitt aus der oberen Windung ist in Bild 7 vergrößert dargestellt.
7. Schematische Darstellung eines Querschnitts durch eine Windung der Schnecke. Das auf der Basilarmembran befindliche Cortische Organ enthält die Haarzellen.
Die Perilymphe enthält viele Natrium-Ionen, während die Scala media kaliumreich ist. Über das Helicotrema stehen die Scala vestibuli und die Scala tympani miteinander in Verbindung. Während die Scala vestibuli am ovalen Fenster durch den Steigbügel verschlossen und durch das Ringband abgedichtet ist, besitzt die Scala tympani zur Paukenhöhle hin eine Öffnung, das runde Fenster.
Das Innenohr, Sitz der eigentlichen Sinneszellen
Dem vergrößerten Ausschnitt der Schnecke (Bild 7) ist zu entnehmen, daß die Grenze zwischen Scala vestibuli und Scala media durch die Reissnersche Membran gebildet wird. Die Basilarmembran bildet die Grenze zwischen Scala media und Scala tympani. Auf ihr befindet sich der eigentliche sensorische Apparat, das Cortische Organ. In Stützzellen eingebettet, liegen dort die Rezeptorzellen. Sie tragen Stereocilien, das sind submikroskopische haarförmige Fortsätze, weswegen sie auch als Haarzellen bezeichnet werden. Es gibt äußere und innere Haarzellen. Die äußeren sind in drei Reihen angeordnet, die inneren bilden nur eine einzige Reihe. Über dem Cortischen Organ liegt eine gallertartige Masse, die Tectorialmembran. Sie ist an der inneren Seite der Schnecke befestigt und berührt die Cilien der Haarzellen, zu denen sie in relativ festem Kontakt steht. Die Stria vascularis, eine gefäßreiche Region, befindet sich an der äußeren Begrenzung der Scala media. Sie ist der Energieversorger der Schnecke und hält die Kalium-Ionen-Konzentration der Endolymphe aufrecht.
Die Receptorzellen am Cortischen Organ bilden als sekundäre Nervenzellen selbst keine Nervenfortsätze aus. Vielmehr stehen sie mit Nervenfasern in Verbindung, deren Ursprungszellen im Ganglion spirale liegen, das seinerseits inmitten der Schnecke spiralförmig aufgewunden ist. Die Nervenzellen dieses Ganglions sind Bipolarzellen. Ihr einer Fortsatz läuft zu den Rezeptorzellen, der andere zum Nervus acusticus des Zentralnervensystems. Innere und äußere Haarzellen sind getrennt mit Nerven versorgt. Zu den inneren Haarzellen laufen viele Nerven, wobei wahrscheinlich jeder Haarzelle ein Nerv zugeordnet ist. Dagegen verzweigen sich die für die äußeren Haarzellen zuständigen Nervenfasern vielfach, und jede versorgt viele äußere Haarzellen. Der überwiegende Teil der Fasern des Nervus acusticus kommt daher von den inneren Haarzellen. Außer durch die Knochenleitung, die nur beim Hören der eigenen Stimme eine wesentliche Rolle spielt, erfolgt die Schallübertragung durch die Luftleitung vom Trommelfell über die Gehörknöchelchen zur Perilymphe des Innenohrs. Die weitverbreitete These, wonach höhere Frequenzen durch Knochenleitung an das Innenohr gelangen, ließ sich experimentell nicht bestätigen.
Der Transformator im Hörorgan - die Natur über- listet die Physik
Bei der Luftleitung, also dem normalen Hörvorgang, muß der Schall von Luft in die Flüssigkeit des Innenohrs übertreten. Normalerweise reflektiert die Grenzfläche zwischen Luft und Flüssigkeit den größten Teil der Schallenergie. Um die Physik zu überlisten und diese Reflexionsverluste möglichst gering zu halten, erfand die Natur den komplizierten Mechanismus aus Trommelfell und Gehörknöchelchen. Er paßt den Schallwellenwiderstand der Luft an den des Innenohrs an und verringert so die Reflexionsverluste ganz erheblich, und zwar um 15 bis 20 Dezibel. Zur Druckerhöhung tragen sowohl die Hebelarme der Gehörknöchelkette bei als auch die Tatsache, daß die Fläche des Trommelfells erheblich größer ist als die Fußplatte des Steigbügels. Nach dem Gesetz „Druck gleich Kraft durch Fläche“ ist der Druck am ovalen Fenster bereits größer als am Trommelfell. Das Ohr verfügt auf diese Weise über einen akustischen Transformator.
Einortstheorie: Jede Frequenz erregt eine Sinneszelle
An der Schallaufnahme im Innenohr beteiligen sich die Perilymphe der Scala vestibuli, das runde Fenster als Druckausgleichsmembran, die Scala media mit Basilarmembran und die Reissnersche Membran. Die Schwingungen in diesen Teilen des Innenohrs führen zur Ausbildung von Wanderwellen, die vom Steigbügel (Stapes) zum Helicotrema verlaufen (Bild 8). Die Amplituden dieser Wanderwellen nehmen zunächst zu und werden später wieder gedämpft, bis sie gänzlich verschwinden. Dies geschieht aufgrund der physikalischen Eigenschaften der von der Wanderwelle durchlaufenen Substanzen.
8. Stark vereinfachtes Schema der Hörbahn bis zur Hirnrinde. Es sind nur die Hörbahnen vom linken Ohr eingezeichnet
Zwischen Ursprungsort am Steigbügel und dem Auslaufen der Welle auf dem Weg zum Helicotrema entsteht so notwendigerweise irgendwo ein Schwingungsmaximum. Dieses Maximum bildet sich für jede Frequenz an einem anderen Ort aus: bei hohen Frequenzen mehr in der Region des Steigbügels, bei tiefen Frequenzen näher beim Helicotrema. Die Anregung der Sinneszellen erfolgt in erster Linie an der Stelle des Maximums: Jede Frequenz erregt daher eine andere Sinneszelle. Hier ergibt sich eine Erklärung für die Tatsache, daß das Ohr einen lang ausgehaltenen Ton als angenehmer empfindet, wenn er mit Vibrato, also mit einer Modulation um die Grundfrequenz versehen ist: Es wird nicht nur eine Sinneszelle belastet, sondern mehrere benachbarte Sinneszellen;der Ermüdungseffekt ist herabgesetzt.
Vibrato über 8 Hertz täuscht starke Erregung vor
Übrigens empfindet das Ohr nur Vibratofrequenzen zwischen 5 und 8 Hertz mit Schwankungen um ±20 bis ±80 cents als ästhetisch optimal. Vibrato unter 5 Hertz verunklart die Intonation, über 8 Hertz verleiht es dem Klang ein Übermaß an Erregtheit.
Über das Hören IV
Die Reizaufnahme der Haarzellen, der Transduktionsprozeß, geschieht durch die Abscherung der Cilien infolge der Relativbewegung zwischen der Basilarmembran und der Tectorialmembran. Interessant ist auch das folgende elektrische Phänomen: Die Messung mittels Mikroelektrode der Potentiale im Innenohr führt zu der Feststellung, daß die Scala media gegenüber der Scala vestibuli stark positiv (etwa 80 Millivolt) aufgeladen ist. Die Stria vascularis und das Cortische Organ zeigen demgegenüber negative Aufladung. Diese Potentialverteilung ergibt sich am unbeschallten Ohr.
Am beschallten Ohr lassen sich weitere Potentiale nachweisen: das Mikrophonpotential und das Nervenaktionspotential. Das erstgenannte trägt seinen Namen deshalb, weil es sich, zum Beispiel am runden Fenster gemessen, verhält wie die Ausgangsspannung eines Mikrophons: Es gibt den genauen Schalldruckverlauf wieder. Dieses Mikrophonpotential folgt dem Reiz ohne Verzögerung, besitzt keine Ansprechzeit (Refraktärzeit), keine meßbare Schwelle und ist nicht ermüdbar. Wahrscheinlich stellt das Mikrophonpotential die außerhalb der Zellen ableitbare Summe der Receptorpotentiale aller erregten Haarzellen dar. Da die Bestandspotentiale ein großes Potentialgefälle zwischen Endolymphraum und dem Inneren der Receptorzellen schaffen (mindestens 150 Millivolt), führen die durch die Abscherung der Cilien verursachten Widerstandsänderungen an der Membran zu einem Ein- und Ausstrom von Ionen und somit zu einem Receptorpotential. Dies ist der Inhalt der Batteriehypothese. Das Receptorpotential der einzelnen Haarzelle führt zu einer Ausschüttung von Transmitter am basalen Pol der Zelle. Dieser bewirkt nun seinerseits die Erregung der zum Zentralnervensystem führenden Nervenfaser.
Hörneivenfasern und die charakteristische Frequenz
Jede Nervenfaser kommt von einer einzigen inneren Haarzelle. Da bestimmten Orten der Schnecke bestimmte Frequenzen zugeordnet sind, wird jede Nervenfaser durch eine ganz bestimmte Frequenz optimal angeregt: die charakteristische Frequenz. Um eine Nervenfaser mit einer nichtcharakteristischen Frequenz zu aktivieren, sind entsprechend höhere Schalldrücke nötig. Dann werden nicht nur die betroffenen Fasern stärker erregt, sondern es werden auch zusätzlich benachbarte Fasern aktiviert. Auf der Ebene der primären Nervenfasern wird der Schallreiz in seine Frequenzkomponenten zerlegt. Die einzelnen Komponenten erregen die ihnen zugeordneten Fasern. Auf den nachfolgenden höheren Stationen der Hörbahn verhalten sich die Neuronen anders.
Bild 8 zeigt das vereinfachte Schema einer zur Hörrinde im Gehirn führenden Hörbahn. Der Übersichtlichkeit wegen sind nur die Bahnen des linken Ohrs eingezeichnet. Eine Pfeilspitze symbolisiert jeweils die Umschaltung auf ein weiteres Neuron. Die primären Fasern ziehen zunächst in den Nucleus cochlearis, der in einen ventralen und einen dorsalen Kern unterteilt ist. Vom ventralen Teil führt eine ventrale Bahn zum Olivenkomplex der gleichen und der gegenüberliegenden Seite. Die Nervenzellen des Olivenkomplexes erhalten demnach Eingänge von beiden Ohren. Auf dieser Ebene ergibt sich erstmals die Möglichkeit, die akustischen Signale, die auf beide Ohren einwirken, zu vergleichen. Dies geschieht insbesondere im Nucleus accessorius, der für die Fähigkeit des räumlichen Hörens verantwortlich ist. Vom Nucleus cochlearis dorsalis geht eine dorsale Bahn aus. Die Fasern kreuzen auf die andere Seite und werden im lateralen Schleifenkern der Gegenseite umgeschaltet. Am Ende besteht die Bahn aus fünf bis sechs Neuronen, doch gibt es noch weitere, im Schema nicht eingezeichnete Umschaltungen.
Im Unterschied zum Nervus acusticus, der auf einfache Reize wie reine Töne anspricht, reagieren die Neuronen der höheren Ebenen der Hörbahn anders. Hier können aufgrund starker wechselseitiger Verschaltungen Schallreize auch zur Hemmung der Neuronen führen. Neuronen noch höherer Ebenen der Hörbahn reagieren nur noch auf komplexe Schallmuster, wie amplitudes oder frequenzmodulierte Töne oder Klänge. Andere Neuronen sprechen auf den Beginn eines Schallreizes, wieder andere auf dessen Ende an, möglicherweise zum Zweck der Zeiterfassung. Als Faustregel gilt: Auf je höherer Ebene sich ein Neuron befindet, um so kompliziertere Schallmuster sind nötig, um es zu erregen. Die Auswertung aller durch die Neuronenvernetzunggelieferten Informationen besorgt das Gehirn.
Warum Frauenchöre manchmal so schrill klingen
Das Ohr ist kein linearer Wandler, daher erzeugt es wie ein elektroakustischer Wandler Kombinationstöne. Einem Ton von 3000 Hertz und einem zweiten von 4000 Hertz, beide mit hoher Lautstärke, fügt das Ohr einen dritten hinzu, den Differenzton erster Ordnung von 1000 Hertz. Es treten unter Umständen sogar kubische Differenztöne auf: 2f2 - f1, wobei f2 und f, die Frequenzen der Primärtöne bedeuten. Frauenchöre enthalten nicht selten hochfrequente Komponenten großer Lautstärke, was leicht zur Erzeugung unerwünschter Differenztöne im Ohr führt, die der HiFi-Anlage beim besten Willen nicht anzulasten sind. Das Ohr hat aber noch eine andere, ebenso merkwürdige wie interessante und besonders für Dirigenten ärgerliche Eigenschaft: Lang andauernde Töne hoher Lautstärke können gleichzeitig wahrgenommene leisere dahingehend beeinflussen, daß das Ohr sie als verstimmt empfindet, und das nicht zu knapp. So hat Fritz Winckel gezeigt, daß die lokale Belastung der Basilarmembran durch einen Dauerton von 800 Hertz zu einer Verstimmung des eine Quint höheren Tons um sieben Prozent nach unten führt - das ist mehr als das Intervall einer kleinen Sekunde.