Ogólny schemat kodowania

W celu efektywnego wykorzystania nadmiarowości informacji, techniki kodowania MPEG operują w dziedzinie częstotliwości. Im bardziej widmo sygnału różni się od płaskiego (czyli widma szumu białego, który jest pozbawiony korelacji) tym bardziej skorelowane są jego próbki. Ponieważ widma dźwięków naturalnych wykazują się często skupieniem energii w niskich częstotliwościach oraz określonych prążkach powiązanych z obecnością składowych harmonicznych, te właśnie przedziały częstotliwości niosą większość informacji i powinny być reprezentowane z większą dokładnością, niż pozostałe części widma.

Ogólna struktura percepcyjnego kodera dźwięku używana w technikach MPEG

Aby przeprowadzić operacje zależne od częstotliwości, konieczna jest dekompozycja sygnału na składowe częstotliwościowe. Może być ona dokonana przez zastosowanie zespołu filtrów albo poprzez transformację ortogonalną. Operacja dekompozycji jest zazwyczaj realizowana blokowo (sygnał jest kodowany w kolejnych blokach próbek).

Jak pokazano na ilustracji, sygnał wejściowy po zamianie na reprezentację częstotliwościową jest kwantowany. Stopień kwantyzacji wpływa zarówno na ilość wprowadzonych zniekształceń, jak i na zmniejszenie entropii. Kwantyzacja jest sterowana przez procedurę przydziału bitów, która z kolei jest sterowana przez model psychoakustyczny. Skwantowane wartości są następnie zakodowane przy użyciu różnych metod usuwających redundancję, dzięki czemu wykorzystuje się związki korelacyjne w sygnale.