Содержание к диссертации
Введение
1 Digitale Bildcodierung 7
1.1 Videoquellencodierung 7
1.2 Grundlagen der Transformationscodierung 9
1.2.1 Die Diskrete Cosinus Transformation 10
1.2.2 Die Quantisierung 13
1.2.3 Redundanzreduktion 15
1.3 Hybride Videocodierung 18
1.4 Standards zur Bildsequenzcodierung 19
1.4.1 H.261 Standard 19
1.4.2 H.263 Standard 21
1.4.3 MPEG-2 Standard 22
1.4.4 MPEG-4 Standard 40
2 Systemarchitekturen der MPEG-Transcodierung 47
2.1 Transcodierung in der Bildebene 48
2.2 Transcodierung in der Frequenzebene 52
2.2.1 Der driftbehaftete Transcoder 53
2.2.2 Der driftfreie Transcoder 55
2.3 Transcodervergleich 57
3 Methoden zur Reduzierung der Datenrate in Frequenzebene 58
3.1 Methoden zur Bildmanipulation 58
3.1.1 Skalare Addition 59
3.1.2 Skalare Multiplikation 60
3.1.3 Pixeladdition 61
3.1.4 Pixelmultiplikation 62
3.1.5 Matrixmultiplikation 65
3.2 Reduzierung der Datenrate durch Veranderung der GOP-Struktur .. 66
3.2.1 Eliminieren hochfrequenter DCT-Koeffizienten 68
3.3 Reduzierung der Datenrate durch Veranderung der Bildauflosung.. 72
3.3.1 Halbierung der raumlichen Auflosung in der Bildebene 72
3.3.2 Halbierung der raumlichen Auflosung in der Frequenzebene... 74
3.3.3 Reduzierung der Chrominanzauflosung in der Frequenzebene. 76
3.4 Modifikation des mquant-Wertes zur Datenratenreduzierung 78
3.5 Optimierung der Bitratenregelung 81
4 Anwendung der MPEG-Transcoder-Toolbox und Beurteilung der Bildqualitat 84
4.1 Integration der MPEG-Transcoder-Toolbox im Broadcastbereich 84
4.1.1 Modifizierter Intra-Frame Frequenztranscoder mit Modulen der MPEG-Transcoder-Toolbox 85
4.2 Betrachtung der Bildqualitat 87
4.2.1 Peak-Signal to Noise Ratio 88
4.2.2 Digitale Bildfehler 84
4.2.3 Die Testsequenzen 92
4.2.4 Bildqualitat in Abhangigkeit von unterschiedlichen Sequenzen. 92
4.3 Ergebnisse der Optimierung des mqunat-Wert 93
4.4 Ergebnisse der MPEG-2 auf MPEG-4 Transcodierung 95
4.4.1 Messung mit fester MPEG-4 Datenrate 95
4.4.2 Messung mit unterschiedlichen MPEG-4 Datenraten 98
4.5 Ergebnisse der MPEG-2 auf MPEG-2 Transcodierung 100
4.6 Ergebnis der Spatialen Reduktion 101
Zusammenfassung 103
Literaturverzeichnis 106
Anhang 116
- Grundlagen der Transformationscodierung
- Transcodierung in der Frequenzebene
- Reduzierung der Datenrate durch Veranderung der GOP-Struktur
- Betrachtung der Bildqualitat
Grundlagen der Transformationscodierung
Ein grundsatzlicher Ansatz zur Reduktion der Datenmenge ist die Transformationscodierung. Die Transformationscodierung [9] gehort zu den hybriden Kompressionsverfahren, hier werden verschiedene Methoden zu einem Gesamtsystem integriert. In der Abbildung 1.1 wird die Videosequenz zunachst einer mathematischen Transformation unterzogen. In der Bild- und Videocodierung nach MPEG ist dies die diskrete Cosinus Transformation (DCT). Ziel der Transformation ist die Informationsverdichtung durch Dekorrelation der Signalwerte. Die Informationen des Bildes sind nun in dem so genannten Ortsfrequenzbereich und werden dort durch die Koeffizienten beschrieben. Diese Transformation mittels der DCT ist ein verlustfreier Schritt. Da der menschliche Sehsinn eine stark von der Ortsfrequenz abhangige Empfindlichkeit hat, lasst sich im Ortsfrequenzbereich eine Irrelevanzreduktion durchfuhren. Alle Bildinhalte die vom Auge nicht wahrgenommen werden, werden durch die Quantisierung aus den Daten entfernt. Es bleiben nur die relevanten Informationen enthalten; dieser Schritt ist verlustbehaftet. Jeder Koeffizient im Ortsfrequenzbereich enthalt Informationen aus alien Abtastwerten. Je weniger Detailreichtum die Originaldaten aufweisen, desto hohere Kompressionsfaktoren sind erreichbar. Zum Abschluss wird eine verlustfreie Redundanzreduktion durchgefuhrt urn noch eine kompaktere Darstellungsform zu erhalten, den so genannten Bitstrom. Auf der Empfangerseite, dem so genannten Decoder, werden die Verarbeitungsschritte in umgekehrter Reihenfolge durchlaufen und das Bild rekonstruiert.
Die Diskrete Cosinus Transformation (DCT) ist eine der heute wichtigsten Bildcodierungsverfahren (Gleichung 1.5). Sie beruht auf der Grundlage der bekannten Laplace- bzw. Fouriertransformation [6]. Der wesentliche Unterschied zu diesen besteht darin, dass die DCT auch im zweidimensionalen Bereich arbeiten kann. Es ist die Moglichkeit geboten, ein und denselben Algorithmus bei unterschiedlichen Datenraten anzuwenden. AuBerdem nutzt diese Transformationscodierung die Unvollkommenheit des menschlichen Auges besser aus als viele andere Codierungsarten. In der Audiotechnik ist diese Art der Codierung seit langerem ublich. Bei der Ubertragung eines Tons einer bestimmten Frequenz ware ein Ubertragungskanal mit der Bandbreite der Frequenz erforderlich, durch die Umwandlung in den Frequenzbereich ist nur noch die Ubertragung eines einzigen spektralen Koeffizienten notig.
In der Fernsehtechnik kommt diese Codierungsart auch zum Einsatz. Hier ist jedoch zu beachten, dass die Bildinformation in horizontaler sowie in vertikaler Richtung verlauft, also zweidimensional ist.
Bei dieser Art der Kompression wird zunachst die Bildinformation getrennt fur die Luminanz- und Chrominanzanteile (YUV-Format) in einzelne Blocke mit je 8x8 Pixel unterteilt und anschlieBend vom Bild- in den Zeitbereich uberfuhrt. Der MPEG-2 Standard kann nicht nur progressive Bilder (Vollbilder) verarbeiten, sondern auch Bilder, die mit dem Zeilensprungverfahren (zwei Halbbilder) aufgenommen wurden. Hier ist der zeitliche Versatz der Halbbilder zu berucksichtigen. Einzelne Makroblocke in Vollbildem konnen entweder nach dem herkommlichen Prinzip (progressiver Modus) oder durch Verschachtelung der Zeilen (Halbbild-Modus) verarbeitet werden, je nach dem, welche Variante eine hohere Korrelation der Bildpunkte und damit eine starkere Kompression verspricht. Durch die Uberfuhrung der Bildsignale in die Frequenzebene ist es moglich, mit den spektralen Koeffizienten die Information zu ubertragen. GroBter Vorteil dieser DCT ist, dass die transformierten Werte in Form einer gewichteten 8x8 Koeffizientenmatrix vorliegen. Hierbei gibt der Wert, der sich links oben in der Matrix befindet, den Gleichspannungsanteil (DC- Wert) an. Dieser stellt den mittleren Grauwert des Blockes dar. Die Werte, die sich vertikal unter bzw. horizontal neben diesem DC- Wert befinden, geben die Wechselspannungsanteile (AC-Wert) der in diese Richtungen liegenden Frequenzkomponenten an. Alle anderen dazwischen liegenden Werte stehen fur die Mischwerte aus den vertikalen und horizontalen Komponenten. Je weiter wir in der Matrix nach rechts unten gehen, desto hoher werden die Frequenzen. Das menschliche Auge kann diese hohen Frequenzen nicht mehr optimal auflosen, daher konnen diese bei der Obertragung weggelassen werden. Im Decoder kommt es zur kompletten Decodierung der Werte. Diese Riicktransformation der DCT-Werte wird Inverse Diskrete Cosinus Transformation (IDCT) genannt (Gleichung 1.6).
lm Gegensatz zu anderen Codierungskomponenten, wie zum Beispiel der Quantisierung, ist der Vorgang der DCT und IDCT abgesehen von geringen Rundungsfehlern verlustfrei. Wie bereits erwahnt, gibt der DC-Anteil eines 8 8 Pixel groBen DCT-Blockes den mittleren Grauwert des Blockes an. Steht der DC-Anteil der mit 11 bit quantisiert wird auf Null, erhalt man ein schwarzes Bild, bei 500 ist das Bild dunkelgrau, bei 1500 bereits hellgrau. Beim Ausschopfen des Wertebereichs fur die DCT-Werte, also bei 2047, ist dann ein weiBes Bild zu sehen. Dies zeigt deutlich, dass mit dem Ansteigen des DC-Wertes das Bild immer heller wird. Verdeutlicht man sich das anhand einer Cosinus-Schwingung, so ist der DC-Wert dem Mittelwert der Schwingung gleichzusetzen. Die Werte, die sich vertikal unter bzw. horizontal neben dem DC- Wert befinden, geben die Wechselspannungsanteile der in diese Richtungen liegenden Frequenzkomponenten an. Die Koeffizienten des DCT-Blockes, die nicht innerhalb der ersten Zeile bzw. Spalte liegen, stellen die Uberlagerung zweier Schwingungen dar. Urn eine Schwingung Pixelweise darstellen zu konnen, benotigt man mindestens 2 Pixel (schwarz und weiB). Bei einer Zeilenlange von 8 Pixeln lassen sich also maximal 4 Schwingungen darstellen, im Falle des DCT-Blockes gilt dies fur die horizontal sowie fur die vertikale Richtung. Dieses Iasst auf eine begrenzte Anzahl von Schwingungen schlieBen, die in diesem Falle darstellbar sind. Weiterhin wichtig ist die GesetzmaBigkeit nach Fourier, die besagt, dass jedes Signal durch eine Uberlagerung von Sinusschwingungen darstellbar ist. Diese Sinusschwingungen konnen unterschiedliche Frequenzen und Amplituden haben. Wenn man zunachst einen Koeffizienten in der X-Richtung verandert, Iasst sich im Bild eine balkenweise Abstufung des Grauwertes in horizontaler Richtung erkennen.
Die Quantisierung ist, abgesehen von der Unterabtastung des Eingangssignals, also der Umwandlung von RGB in die Chroma-Formate 4:2:2 oder 4:2:0, der einzige verlustbehaftete Schritt des Codiervorganges. Die mit Hilfe der DCT errechneten Werte werden quantisiert, d.h. in ihrem Wertebereich verkleinert. Dabei muss eine akzeptable Balance zwischen Qualitat und Kompressionsrate gefunden werden. MPEG nutzt eine einheitliche Quantisierung mit verschiedenen Schrittweiten je DCT Koeffizient. Eine Quantisierungsmatrix (8 8-Werte), welche die Quantisierungsstufen aller 64 Koeffizienten enthalt, ist fur intra- und intercodierte Bilder definiert [14].
Durch diese wird dann die DCT- Matrix entsprechend der Augenempfindlichkeit dividiert. Zusatzlich existiert noch ein Quantisierungsfaktor (Qf), der fur jeden Makroblock bei MPEG-2 neu definiert werden kann [14]. Dieser Faktor skaliert die Quantisierungsmatrix der 8 8-BI6cke vor ihrer Anwendung. Dabei bestimmen die Wahl der Quantisierungsmatrix und des Quantisierungsfaktor entscheidend die Qualitat und die erzielte Kompression des rekonstruierten Bildes. Uber den fur jeden Makroblock neu bestimmten Quantisierungsfaktor wird auch im Wesentlichen die Datenratenregelung durchgefuhrt. Da das menschliche Auge strukturorientiert ist, konnen hohe Frequenzen, welche unter anderem auch Rauschen darstellen, grober quantisiert werden als niedrige Frequenzen, die groBflachige Strukturen in einem Bild beschreiben.
Durch Auswahl entsprechender Quantisierungstabellen und der nach der Division folgenden Rundung der Werte auf Integerwerte konnen somit eine erhebliche Anzahl von Koeffizienten aus dem hoheren Frequenzbereich auf den Wert Null reduziert werden. Treten in einem Bild viele hochfrequenten Anteile auf, so kann die Quantisierung Probleme bereiten. Werden solche Bilder zu grob quantisiert, d.h. werden wichtige Bildinhalte stark oder vollkommen reduziert, leidet die Bildqualitat erheblich. In MPEG-2-Encodern wird der Bildinhalt von intracodierten Bildern jedoch uberpruft und gegebenenfalls die Quantisierungstabelle durch eine andere ersetzt. Fur intracodierte Bilder (bzw. Blocke) werden die verschiedenen Koeffizienten die durch die DCT entstandenen unterschiedlich quantisiert. Dadurch werden die hochfrequenten Anteile starker reduziert als die niederfrequenten und der Gleichspannungsanteil.
Transcodierung in der Frequenzebene
Nach Untersuchung des allgemeinen Transcoder in der Bildebene lassen sich verschiedene Transcoder fur die Frequenzebene ableiten [7, 8, 9, 27,17]. Es hat sich herausgestellt, dass eine Veranderung der Bewegungsvektoren fur die Transcodierung weniger geeignet ist als eine Requantisierung der DCT-Koeffizienten. Somit kann die gesamte Bewegungsinformation des Eingangsbitstromes fur den Ausgangsbitstrom ubernommen werden, welches eine erneute Bewegungsschatzung uberflussig macht und die Komplexitat des Transcoders verringert. Die DCT-Werte konnen ebenso ohne erneute Berechnung auf den Ausgangsbitstrom ubertragen werden. Der Decodierprozess wird nur bis zur Dequantisierung durchgefuhrt, durch die Requantisierung mit neuen Quantisierungswerten erreicht man dann die gewunschte Datenrate. Wenn die Transcodierung in dieser Form durchgefuhrt wird spricht man von einer Signalverarbeitung, die vollstandig im Frequenzbereich stattfindet [16, 15, 22, 23, 37,44]. Im Allgemeinen besteht ein Transcoder aus zwei Teilen, einem kaskadierten Decoder und Encoder (Abbildung 2.4).
Es gibt unterschiedliche Typen von Frequenzranscodern. Zum Einen gibt es den driftbehafteten Transcoder, sein Vorteil liegt im geringen Zeitaufwand bei der Transcodierung. Somit ist seine Verwendung bei Echtzeitanwendungen von Vorteil. Zum
Anderen kann ein sogenannter driftfreier Transcoder benutzt werden, der eine hohere Komplexibiliat besitzt.Abbildung 2.5: Driftbehaftete Transcodierung in der Frequenzebene
Der driftbehaftete Transcoder (Abbildung 2.4) hat einen relativ einfachen Aufbau, er besteht nur aus der Variable-Length-Decoding (VLC"1), der inversen Quantisierung (Q"1), einer weiteren Quantisierung (Q) und einer Variable Length Coding (VLC). Der Vorgang der Diskreten-Cosinusransformation (DCT) und entsprechend der Inversen Diskreten Cosinus Transformation (IDCT) sowie die Pradiktion sind bei diesem Transcoder nicht vorhanden. Durch einen so genannten Infobus kann ermoglicht werden, dass die gewunschten Daten, beispielsweise DCT-Werte, ausgelesen werden und bei der erneuten Codierung dem Coder wieder zugefugt wird. Durch diesen Infobus kann eine Performancesteigerung erreicht werden, zumal er in der Lage ist, mehrere bereits wahrend der Codierung getroffene Entscheidungen zu ubemehmen und nach der Transcodierung wieder zuzufuhren.
Nun folgt die erneute Quantisierung, die durch eine neue Rate Control mit neuen Quantisierungsfaktoren gesteuert wird. Durch eine Verkleinerung dieser Quantisierungsfaktoren kann hier die gewunschte Verringerung der Datenrate erfolgen. Der Vorteil eines driftbehaftete Transcoder besteht in seinem einfachen modularen Aufbau aus den bekannten Modulen eines Encoders und Decoders. Ein Nachteil ist der bei dieser Trancodierungsart auftretende Driftfehler. Dieser entsteht durch den Quantisierungsfehler im Transcoder und addiert sich mit dem erzeugten Pradiktion im Encoder. Somit ergibt sich bei der Ruckpradiktion im Decoder eine Verschiebung, die so genannte Drift. Sie tritt nur bei P- und B-Bildern auf und resultiert in einer zeitlichen Qualitatsverschlechterung. Trotzdem bietet ein derartiges Verfahren eine bessere Qualitat als die kompiette Decodierung mit anschlieRender Neucodierung. In Abbildung 2.4 ist die Implementierung eines driftbehafteten Transcoder zu sehen. Im Punkt С liegt das Ausgangssignal (An1) an (Gleichung2.13).
Dieses Signal beinhaltet den Pradikationsfehler und den Quantisierungsfehler vom ersten Encoder. Im Transcoder entsteht eine Reihenschaltung der Codiermodule und dadurch eine Addition der Quantisierungsfehler (Punkt E, Gleichung 2.14).An3 = Ausgangssignal Transcoder Bn4 = Eingangssignal Decoder 2 Rn4 = Resultierendes Signal Transcoder Qn2 = Quantisierungsfehler Transcoder
Man sieht, dass an Punkt G vom Decoder 2 der Ruckpradikationsfehler (Pn2) auch den Quantisierungsfehler (Q2mn.i) vom Transcoder beinhaltet (Gleichung 2.15). Q rrirH = Quantisierungsfehler des Transcoders
Das Ausgangssignal (An4) am Decoder 2 setzt sich durch die Addition von Gleichung (2.14 und 2.15) zusammen. Hiermit ergibt sich Gleichung (2.17). Der Drift entsteht durch die Aufsummierung der jeweiligen Quantisierungsfehler und wird erst mit dem nachsten I-Frame wieder aufgehoben, da dieses l-Frame die Pradikation nicht durchlauft.
Aus der Struktur des allgemeinen Transcoders in der Bildebene und dem driftbehafteten Transcoders in der Frequenzebene lasst sich der Transcoder mit Ruckkupplung herleiten. Im Gegensatz zum driftbehafteten Transcoder besitzt der driftfreie Transcoder (Transcoder mit Ruckkupplung) einen wesentlich komplexeren Aufbau und erfordert dadurch auch mehr Rechenleistung (Abbildung 2.6). Dieser erhohte Rechenaufwand kommt in erster Linie durch die DCT und IDCT zu Stande, welche bei dieser Art der Transcodierung vollstandig ausgefuhrt wird. Auch die Motion Compensation tragt ihren Teil dazu bei. Mit ihrer Hilfe wird ein Differenz-Signal berechnet, womit ein Auseinanderdriften zwischen Eingangs- und Ausgangssignal verhindert werden kann. Dieses Differenz-Signal entspricht dem Pradikator in einem Standalone-Encoder. Der Codierfehler resultiert hier also nur noch aus dem Quantisierungsrauschen der aktuellen Bilder. Eine weitere Vereinfachung des Transcoders wird durch das Ausnutzen der Linearitatseigenschaft der DCT erreicht, es wird eine IDCT eingespart. Wie auch bei dem driftbehafteten Transcoder werden hier die getroffenen Codierentscheidungen uber einen Datenbus dem Encoder zur Verarbeitung ubermittelt. In Abbildung 2.7 sind die moglichen Parameter fur einen Infobus aufgefuhrt.
Reduzierung der Datenrate durch Veranderung der GOP-Struktur
Grundsatzlich gilt es zunachst zu klaren, wie viele Bilder ausgelassen werden konnen, urn eine noch akzeptable Bildabfolge zu gewahrleisten. Fur die Erzeugung eines Streams mit geringerer Datenrate wird schnell deutlich, das das Auslassen der entsprechenden Anzahl von B-Bildern durchaus akzeptable Bildeindrucke liefert. Das menschliche Auge ist dabei nicht mehr in der Lage die schnellere Bildfolge, also die schnelleren Bewegungen, zeitlich aufzulosen. Es interpoliert Gesehenes uber den Bildeindruck. Dies gilt ebenfalls fur die Ortsauflosung der einzelnen Bilder, welches sich bei den weiteren Untersuchungen als sehr nutzvoll erweisen wird. Hier werde ich durch eine Codierung der Quellbilder zu einer GOP von 12 Bildern, mit einer l-P Distanz durchfuhren. Ich verzichte auf die in Vorwarts-und Ruckwartsrichtung abhangigen B-Bilder, und nutze nur I- und P-Bilder, deren Abhangigkeiten zur Decodierung und Darstellung fortlaufend gewahrleistet ist weil der driftbehaftete Transcoder keine Bewegungsdaten decodieren muss, kann ich die Methode des Eliminierens von B-Bildern auch im Frequenzbereich anwenden.
Ubersprungene B-Bilder besitzen eine sehr kleine Datenmenge und konnen verwendet werden, wenn die geforderte Ausgangsbitrate des codierten Bitstream sehr klein ist oder ein Leerlauf der Bitratenregeiung verhindert werden soil. Das Weglassen der B-Bildermenschlichem Auge als Dikontinuitat empfunden wird. Werden in einem Videobitstrom mit einer regelmaBigen Bildgruppenstruktur nach (Abbildung 3.2) B-Bilder ubersprungen [13, 66,67], so sinkt die wahrgenommene Bildwiederholfrequenz. Wie aus der (Abbildung 3.2) zu erkennen ist, reduzieren sich die GOP s auf I-, und P-Bilder, wodurch die Datenmenge reduziert wird. Zur Verdeutlichung der Bitratenverteilung von verschiedenen Bildtypen innerhalb einer GOP von zwolf Bildern, wird die Sequenz Mobile & Calendar mit 6 Mbit/s codiert. Die folgende Abbildung 3.3 zeigt die entstandene Bitratenverteilung auf.
Wie zu erkennen ist, tragen die intracodierten Bilder den GroBteil an Daten. Ein l-Bild weist demnach die fast achtfache Datenmenge eines B-Bildes auf. P-Bilder beanspruchen in der Regel ein Drittel bis zur halben Datenmenge eines l-Bildes. Man kann sich bei diesem Verfahren den Umstand zu nutze machen, das bei schnellen Bildabfolgen bzw. Bewegungen das menschliche Auge nicht in der Lage ist, die voile Bildauflosung zu erfassen.
Grundsatzlich kann die Datenrate durch eine Temporale Reduktion verringert werden. Bei der Erzeugung eines Streams mit geringerer Datenrate wird deutlich, dass das Auslassen einer entsprechenden Anzahl von Bildern durchaus akzeptable Bildeindrucke liefert. Die Temporale Reduktion hat ihre Vorteile in Ihrem einfachen Algorithmus und besitzt dadurch einen geringeren Rechenaufwand. Aus diesen Grunden ist die Temporale Reduktion als Modul fur eine MPEGranscoderoolbox geeignet. Durch eine Requantisierung oder ein Abschneiden hochfrequenter DCT-Koeffizienten in den I- und P-Bildern kann man die Datenrate weiter verringern. Die Eliminierung hoher Frequenzen und die daraus resultierende Reduktion der Datenrate lasst sich bei der MPEG-Codierung leicht erreichen. Die durch die DCT in den zweidimensionalen Frequenzbereich transformierte Bildvorlage lasst sich durch die Anordnung der Koeffizienten eines 8 8 Blocks gunstig bearbeiten. So konnen die sich im unteren Teil der Matrix befindlichen hohen Frequenzanteile zu Null gesetzt werden. Wahlt man die zu eliminierenden Koeffizienten so aus, dass sie nach dem Zick-Zack-Scanning hintereinander auftreten, werden sie nach der variablen Lauflangencodierung zu einer langen Kette von Nullen codiert, die nicht als Informationen ubertragen werden mussen. Es wurde unter der Berucksichtigung dieser Argumente eine Auswahl von relevanten Koeffizienten zur Darstellung einer Bildvorlage ausgewahlt [2], welche in Abbildung 3.4 dargestellt sind.
Abbildung 3.5: Bitratenreduktion durch Koeffizientenauswahl, Mobile & CalendarWeil sich die Anzahl der DCT-Koeffizienten, die ungleich Null sind, verringem, nimmt die Datenmenge ab. Im Gegensatz zur Requantisierung bleiben die Quantisierungsfaktoren konstant. Mit einem zweiten Quantisierer wird die Abschneideoperation durchgefuhrt. Er arbeitet mit derselben Stufenbreite wie der inverse Quantisierer und setzt die gewunschten hochfrequenten DCT-Koeffizienten zu Null. Die DCT-Koeffizienten eines Blockes werden dazu in der gleichen Reihenfolge, wie sie im Eingangsdatenstrom enthalten sind, durchgezahlt. Wenn die Rechenoperation beendet ist, werden die verbleibenden DCT-Koeffizienten des Blocks verworfen. Urn experimentell festzustellen, wie sich die Datenrate in Abhangigkeit von der Anzahl an ausgewahlten Koeffizienten andert, wurden jeweils 36 Bilder der Testsequenzen Mobile & Calendar und Hawaii mit alien Gewichtungsmatrizen multipliziert. Prinzipiell erreicht der hier installierte Software-Encoder TM-5 nach der globalen Quantisierung der Blocke in Abhangigkeit des Pufferfullstandes die errechnete adaptive Quantisierung der Makroblocke eine konstante Datenrate. Die Datenratenkontrolle reguliert dabei das AusmaB der Quantisierung eines Makroblocks unter Berucksichtigung des Pufferfullstandes und der dem Datenstrom zur Verfugung stehenden Bitraten. Die Datenratenkontrolle entscheidet also daruber, wie grob oder fein die Frequenzkoeffizienten des Bildes zu quantisieren sind urn auf die fest vorgegebene Datenrate zu kommen.
Betrachtung der Bildqualitat
Die Beurteilung der visuellen Qualitat von Bildvorlagen stellt die Wissenschaft immer wieder vor Probleme, da bisher keine objektiv berechenbaren Parameter bekannt sind, die die subjektiv vom Menschen empfundene Bildqualitat hinreichend gut abbilden. Durch psychophysiologische Tests mit einer genugen groBen Anzahl von Testpersonen laBt sich die subjektive Qualitat von Fernsehbildern relativ genau ermitteln, verbunden damit ist jedoch ein sehr hoher Aufwand. Die sorgfaltige Vorbereitung, Durchfuhrung und Auswertung eines subjektiven Tests dauert mindestens einige Tage, wenn nicht sogar Wochen; fur die tagliche Laborarbeit wie z.B. die Optimierung eines Bildverarbeitungsalgorithmus ist diese Verzogerung unakzeptabel. Fur die subjektive Bewertung der Qualitat von Fernsehbildern durch technische Messungen („Objektive Messungen") gibt es eine Reihe von Ansatzen. In der analogen Technik werden haufig der Signal-Rausch-Abstand eines Bildes, die Signalbandbreite oder der Versatz zwischen Luminanz und Chrominanz herangezogen. Durch diese Parameter lassen sich aber nur einzelne Arten der Qualitatsverschlechterung wiedergeben, deren Gesamtheit aber erst die resultierende visuelle Bildqualitat bestimmt. Einige Storungen, wie z.B. nichtlineare Verzerrungen, lassen sich zudem nicht mit einer einfachen Zahlenangabe machen. Bei der Bewertung von digitalen Codierverfahren, bei denen die oben genannten Storungen so nicht auftreten, greift man haufig auf die Berechnung der Abweichung zwischen den Abtastwerten des Originalbildes und des verarbeiteten Bildes zuriick. Diese Abweichung kann man in Form der mittleren quadratischen Differenz der Abtastwerte auf einer ublicherweise logarithmischen Skala angeben. Die Parameter sind fur die vorliegenden Bilder mit wenig Aufwand berechenbar und werden deshalb haufig fur die Optimierung von Datenreduktionsverfahren herangezogen. Allerdings geben die berechneten Abweichungen nur bedingt Aufschluss uber die visuell Qualitat der betrachteten Signale.
Das Peak-Signal to Noise Ratio (PSNR) gibt das Verhaltnis zwischen Storenergie und maximaler Energie des Nutzsignals eines Bildes an. Unter Storung versteht man dabei nicht das aus der Analogtechnik bekannte und dort haufig als wei3 und gauRformige angenommene Rauschen, sondern jede Abweichung eines verarbeiteten Signals vom Original, auch wenn diese Abweichung von deterministischen Prozessen wie Datenreduktionsverfahren herruhren. Berechnet wird die PSNR eines mit 8 Bit quantisierten Bildes nach folgender Gleichung 4.1.
Es wird also die mittlere quadratische Differenz der einander entsprechenden Bildpunkte ins Verhaltnis gesetzt bis zur maximal moglichen quadratischen Differenz und auf einer logarithmischen Skala dargestellt. Man enthalt damit genau wie bei der Rauschmessung im Analogen eine Angabe in dB, die vertraut scheint, aber aus demselben Grund auch Gefahr zur Falschinterpretation in sich birgt. Analoges, weiBes, gauBverteiltes Rauschen mit einem Signal to Noise (SNR) Wert von 40dB ist unabhangig vom Nutzsignal fur den menschlichen Betrachter als geringe Rauschstorung zu bemerken, wahrend Rauschen mit einem SNR von 30dB schon eine kraftige Storung darstellt. Eine entsprechende Aussage lasst sich in dieser Form fur das PSNR nicht machen. Datenreduktionsverfahren lassen in der Regel an Stellen, an denen psychophysiologische Verdeckungseffekte den menschlichen Betrachter unempfindlicher gegen Storungen machen (z.B. Stellen mit viel Detailreichtum oder viel Bewegung), eine groBere Abweichung vom Originalbild zu als an anderen. In der Regel verbirgt sich hinter dem gleichen Zahienwert bei zum Bildinhalt korrelierten Storungen, wie sie bei Datenreduktion auftreten, eine geringfugigere Storwirkung auf den menschlichen Betrachter als bei unkorrelierten, rauschartigen Storungen, die zwarauch der Verdeckung unterliegen konnen, in Bildflachen aber deutlich erkennbar sind. Eine Kalibrierung zwischen PSNR-Werten und Bildqualitat gibt es nicht, weil die Erkennbarkeit von Storungen entscheidend vom Verdeckungseffekt und damit vom Bildinhalt abhangt. Aussagekraftig ist ein PSNR-Wert deshalb nur relativ zu anderen PSNR-Messungen, die bei einer Verwendung des gleichen Bildmaterials und einer algorithmisch gleichartigen Verarbeitung (mit evtl. anderen Parametem) durchgefuhrt wurde. Vergleicht man z.B. die Bildqualitat zweier MPEG-2-Codierungen des exakt gleichen Originals, bei denen ein einzelner Codierparameter verandert wurde, so lasst sich mit Hilfe des PSNR-Wertes die effektivere Parameterwahl erkennen.
Digitale Bildfehler entstehen durch Codierfehler und sind typisch fur bestimmte Kompressionskonzepte. Eine grobere Quantisierung fuhrt bei einigen Verfahren zu Rauschen, das unter Umstanden auch groBflachige Strukturen bilden kann, wahrend andere Verfahren auf Kosten des Scharfeeindrucks die Datenrate verkleinern.
Beim MPEG-Verfahren wird das Bild in 8 8 Pixel umfassende Blocke unterteilt. Daraus resultieren Fehler, weil die Ubergange zwischen den Blocken nur unzureichend berucksichtigt werden. Bei der Dekompression der Bilddaten entstehen bei entsprechendem Bildmaterial storende Kanten. Vor allem an Kanten mit hochfrequenten Anteilen auBert sich der Effekt deutlich. Die mittlere Helligkeit (Gleichanteil) eines Blockes wird am geringsten verandert, weil hierfur die menschliche Wahmehmung den groBten Informationsgehalt aufweist. Bei hohen Kompressionsraten tritt dieser daher stark hervor; es kommt zur Blockbildung (Abbildung 4.3).
Die Blocke, die auf eine kontrastreiche Kante fallen, enthalten hochfrequente Anteile. Diese konnen bei dem MPEG-Verfahren schlechter reprasentiert werden. Der dekomprimierte Block zeigt daher neben der eigentlichen Kante starke Pixelstorungen (Artefakte), die einem Rauschen ahneln. Benachbarte Blocke, die diese Kante nicht enthalten, zeigen das Rauschen nicht.
Die Blockgrenzen treten durch die Pixelstorungen dadurch deutlich hervor. An einer diagonalen Linie entstehen so Treppen, ahnlich zu Linien ohne Anialiasing. Eine laufende Bildfolge, in der sich durch eine Kamerabewegung oder Rauschen eine derartige Kante standig uber die Blockgrenzen bewegt, kann bei hohen Kompressionsraten einem Codierfahren Probleme bereiten.
Die storende Treppchenbildung zeigt sich allerdings auch bei niedrigen Datenraten. Digitale Filter verteilen zwar die Bildstorung so, dass sie an Kanten nicht so deutlich hervortritt; insgesamt bleibt der Effekt der Blockbildung dennoch erkennbar.
Bei dem MPEG-Verfahren entsteht durch die Quantisierung der DCT-Koeffizienten der Effekt des Quantisierungsrauschens. Dadurch entstehen blockweise unterschiedliche, einfarbige Farbanteile, die eine Farbverzerrung hervorrufen. Eine Quantisierung entspricht der Reduktion der im Bild enthaltenen Farb- und Helligkeitsabstufungen; daraus resultiert eine storende Flachenbildung. Digitaler Generationsverlust
Der Vorteil digitaler Signalverarbeitung besteht darin, dass theoretisch beliebig viele Verarbeitungsschritte durchgefuhrt werden konnen, ohne dass die Bildqualitat leidet. Durch die Kaskadierung der Kompressionsverfahren entsteht ein digitaler Generationsverlust, der sich mit analogen Generationen vergleichen lasst, wenn er auch nicht so stark wirksam ist. Die Generationsverluste entstehen durch Rundungsfehler bei der Dequantisierung im Kompressionsalgorithmus. In Abbildung 4.4 sind die PSNR-Verluste beim Generationsverhalten zu sehen. Bei einer Verschiebung der Bildtypen (mit Shift) tritt eine groBere PSNR Abweichung gegenuber dem Original auf.