- El Modelo
Psicoacústico - Norma ISO/IEC 11172 – 3 :
Audio - La Trama de
Audio - Decodificación
- Codificación
- Modelos
Psicoacústicos de la ISO/IEC 11172 - Aplicaciones
del estándar MPEG-1 - Temas
Relacionados - Glosario
- Referencias
1 –
Introducción
Las señales
de audio, producto de
trasducciones acustoeléctricas son en la gran
mayoría de los casos de tipo analógicas. Es decir,
una señal eléctrica de magnitud finita y continua
en el tiempo, con
niveles variables de
acuerdo a los valores de
la información original, acotados entre dos
límites. Esta simple representación
ha permitido la transmisión, a través de métodos de
modulación adecuados, y el almacenamiento de
la información. Sin embargo, la eficiencia y
eficacia de
estos procedimientos no
son perfectos. La aparición de ruidos, de origen natural o
creados por el hombre, y
de distorsiones lineales y alinéales propias del canal de
transmisión deterioran la señal analógica en
forma más o menos severa, según los
casos.
El desarrollo de
la tecnología digital ha posibilitado la
incorporación de nuevas formas de tratamiento de la
información, que permiten disminuir los efectos de tales
disturbios e imperfecciones. Pero la digitalización trae
como consecuencias un aumento sustancial del ancho de banda
necesario para la transmisión y un aumento de la capacidad
necesaria para el almacenamiento. En consecuencia, uno de los
desarrollos más recientes y prometedores es la
compresión de datos que intenta
disminuir algunos de los efectos no deseados de la
digitalización.
La reducción de la velocidad de
transmisión o tasa de bits (directamente relacionada con
el ancho de banda de transmisión) es necesaria porque los
costos de
transmisión aumentan con dicha velocidad. Por lo tanto es
imperativo el uso de técnicas
de compresión para conseguir la más baja velocidad
posible que proporcione una aceptable calidad de
imagen y audio
en una determinada aplicación.
La digitalización de las redes de telecomunicaciones ha traído también
un cambio en las
características y calidad de las señales
transportadas, y puede afirmarse que las señales digitales
son transportadas con una facilidad cada vez mayor. En especial,
las señales de televisión, tanto normales como de alta
calidad, si bien eran aptas para su transporte
digital, debían enfrentarse a la necesidad de un
transporte de información en cantidades cada vez
mayores.
En consecuencia, durante mucho tiempo fue notorio el
interés
de encontrar la posibilidad de reducir la velocidad de
transmisión necesaria aprovechando las
características específicas de las señales
de audio y voz.
Uno de los principales requisitos para el éxito
de cualquier sistema de
compresión es la compatibilidad entre terminales. Por
consiguiente, es necesario encontrar estándares nacionales
e internacionales para velocidades de transferencia de datos,
interfaces, protocolos y
señalización.
La compresión digital de audio es un campo cada
vez más importante y activo. El progreso en los algoritmos de
compresión, la tecnología VLSI, y las normas de
codificación han hecho del audio digital
una tecnología practicable para muchas aplicaciones. Ante
todo, se han desarrollado muchos nuevos algoritmos de
compresión, que permiten la transmisión o el
almacenamiento de audio digital con excelente calidad a tasa de
datos razonables. Además, el avance en la
tecnología VLSI hace posible implementar algoritmos
sofisticados de compresión para aplicaciones en tiempo
real de una manera eficaz en función de
los costos. Finalmente, surgieron rápidamente las normas
para la compresión de audio que facilitan las plataformas
comunes de comunicación. Como resultado de todo esto,
se están formando nuevas alianzas,
comercializándose nuevos productos,
efectuándose nuevos ensayos, y se
están suministrando nuevos servicios, con
lo cual la compresión digital de audio está
adquiriendo cada vez una importancia mayor.
A fin de normalizar todo lo referente al tema
compresión, la
Organización Internacional de Normas (ISO:
International Standards Organization)
creó un subcomité en conjunto con la
Comisión Internacional Electrotecnia (IEC:
International Electrotechnical Commission)
denominado "Grupo de
Expertos en Imágenes
en Movimiento"
MPEG (Moving Pictures Experts
Group). Este grupo de trabajo ha
desarrollado dos normas, una para el vídeo y audio digital
de computadoras
identificada por la sigla MPEG-1 (publicada en noviembre
de 1992) y otra para el vídeo y audio digitales empleados
en la radiodifusión y en la distribución filoguiada de tales
señales, bautizada con la denominación
MPEG-2. En marzo de 1993 el MPEG
publicó una propuesta de la norma MPEG-2, en la que se
definió que el objetivo de
calidad buscado era el nivel establecido en la
Recomendación 601 de la UIT-R (ex CCIR: Comité
Consultivo Internacional de Radiocomunicaciones). En julio de
1993 se publicaron los requisitos establecidos por la Norma
MPEG-2. La ISO esta
trabajando en una nueva iniciativa para la codificación a
tasa muy baja de bits de información de audio y de
vídeo (MPEG-4) que se presentará en
1999.
El MPEG no especifica una técnica única de
compresión, sino un conjunto de las herramientas
de compresión que pueden usarse en conformidad con reglas
exactas de una sintaxis de compresión. Estas reglas
exactas facilitan el intercambio de flujo de bits entre
aplicaciones diferentes.
En éste proyecto se
introducirán primero conceptos generales sobre
compresión y otros temas necesarios para el entendimiento
de las técnicas utilizadas en los sistemas que se
ajustan a las normas MPEG 1. Se tratará exclusivamente lo
relacionado a la compresión del audio. Luego se
expondrán temas más relacionados a la
implementación de diferentes algoritmos necesarios para
los codecs MPEG 1.
La compresión de las señales es el
proceso
mediante el que se obtiene la reducción del caudal de
datos a transmitir y/o almacenar.
Este proceso tiene que ser eficaz, esto es: la
técnica empleada para la reducción debe permitir
que el terminal receptor y/o reproductor presente la
información de modo que, luego de expandirla, los
observadores y/u oyentes no se encuentren en capacidad de notar
diferencia alguna si tuvieran la oportunidad de comparar la
señal original con la así procesada. Además,
el proceso tiene que ser eficiente, es decir: ha de efectuarse en
tiempo real y con un costo que
justifique los beneficios pretendidos. El dominio elegido
para este proceso es el digital, por las innumerables ventajas
que posee sobre el analógico.
Compresión, reducción de la
tasa de bits y reducción de datos son todos
términos que significan básicamente lo mismo en
este contexto. En esencia, compresión significa que la
misma información se transfiere usando una menor tasa de
datos. Se debe indicar que en el lenguaje
tradicional del audio, "compresión" significa un proceso
en el cual se reduce el rango dinámico de la señal
representativa del sonido. En el
lenguaje
digital la misma palabra significa que la tasa de bits se reduce,
idealmente dejando sin cambios la dinámica de la señal. Por lo tanto
en este contexto se adoptará el último
significado.
La compresión puede ser utilizada de dos maneras
diferentes:
1) En transmisión
2) En almacenamiento
La compresión utilizada en transmisión se
resume en la figura 1.1. Se puede ver en la figura 1.1.A que el
compresor reduce la tasa de datos de la fuente. Los datos
comprimidos atraviesan un canal de comunicación y luego
son vueltos a la tasa original mediante el expansor. La
relación entre la tasa de datos de la fuente y la tasa de
datos del canal se llama factor de compresión. Se
usa también el término ganancia de
codificación. A veces a un compresor y un expansor en
cascada se los denomina compansor. El compresor puede
igualmente bien llamarse codificador y el expansor decodificador
en cuáles casos el par en tándem puede denominarse
codec. En las comunicaciones, el costo de los enlaces de datos
es la mayoría de las veces proporcional (groseramente) a
la tasa de datos y por lo tanto es que surge una cierta presión
económica para usar un factor alto de compresión.
Sin embargo, se debe tener en mente que la implementación
de un codec también tiene un costo que sube con el factor
de compresión y en consecuencia será necesario
llegar a un compromiso.
La figura 1.1.B muestra el uso de
un codec para almacenamiento de información. El uso de la
compresión en aplicaciones de almacenamiento es sumamente
poderoso. Es decir, que el mismo trae numerosas ventajas como ser
que el tiempo de reproducción medio se extiende en
proporción al factor de compresión puesto que, por
ejemplo, en una cinta puede almacenarse más
información. En el caso de las cintas, el tiempo de acceso
se mejora porque la longitud de cinta necesaria para una
grabación determinada se reducirá y por lo tanto
puede ser rebobinada más rápidamente.
Figura 1.1.a. Compresión
utilizada en transmisión.
Figura 1.1.B. Uso de un codec para
almacenamiento de información.
Razones de las técnicas de
compresión
El audio comenzó como un medio analógico.
Las señales de audio se capturaron, almacenaron,
procesaron, y transmitieron usando técnicas
analógicas en las que una señal "forma" en
sí misma el sonido.
Hoy, el audio (y la
televisión) reúne otro tipo de
información electrónica y las tecnologías
utilizadas en comunicaciones son totalmente digitales. En vez de
emplear formas de onda analógicas, las señales de
audio se digitalizan, lo cual significa que la información
visual se muestrea en muchos puntos en el espacio y en el tiempo,
y estos valores de
muestreo se
convierten en códigos digitales binarios (O's y 1's).
Estos valores digitales, no son señales analógicas
en sí mismos, son los qué luego se
almacenarán en cinta, disco, o silicio y se transmiten por
cable o aire utilizando
adecuados métodos de modulación.
El audio (y vídeo) digital involucra una cantidad
muy grande de datos. Al representar las señales de audio
en forma digital pueden ponerse a prueba tanto el almacenamiento,
la capacidad de dispositivos, como grabadores, discos, sistemas
basados en RAM, etc., y
también pueden retarse la capacidad de transporte de
información de los canales de
transmisión.
La transmisión, almacenamiento, y procesamiento
de la señal de audio digital requiere la
manipulación de cuantiosos flujos de datos (mayor
aún la compuesta de vídeo y audio). La velocidad de
estos flujos de datos se llama tasa de bits, la cual
mide la cantidad de datos en bits por segundo. Cuanto
más alta es la calidad de la señal de audio
representada, más alta es la tasa de bits, lo cual implica
un mayor desafío para los dispositivos de
almacenamiento y para los canales de
transmisión.
Las señales de audio digital ocupan mucho
más ancho de banda que sus equivalentes analógicas.
Por lo tanto los sistemas que pueden reducir los requerimientos
de espectro sin empobrecer la calidad son verdaderamente
estimados. Ellos permiten que la transmisión digital sea
práctica y económica. Ahora están
disponibles varios sistemas que permiten la transmisión de
audio digital de alta calidad en menos de un cuarto del ancho de
banda previamente requerido.
Con la amplia escala de
aceptación de los discos compactos (CD), los
beneficios del audio de alta fidelidad digital han atraído
dramáticamente la atención de los usuarios y profesionales.
La claridad y robustez del CD no han sido equiparada por ninguno
de los otros reproductores domésticos de la anterior
tecnología. Además, en los últimos
años, se puede apreciar que la demanda por
sonido de alta calidad se ha filtrado a través de muchas
otras áreas de la industria del
entretenimiento.
Respondiendo a esta creciente demanda por mejorar la
calidad del sonido, muchas compañías de audio y
autoridades del broadcasting han determinado su intención
por desarrollar los medios de
audio digital, prometiendo un amplio rango de futuros servicios
digitales.
Aunque la grabación de audio digital y la
transmisión ofrecen muchas ventajas sonoras y
operacionales sobre su contraparte analógica (inmunidad al
ruido, mejor
ancho de banda de audio y múltiples reproducciones sin
degradación de la señal) esta claro que las
señales de audio digital ocupan un extremadamente amplio
ancho de banda de transmisión. Por ejemplo, la tasa de
transferencia digital de un CD es más de 1.4 Mbps
(44100 x 16 x 2 = 1411200, es decir, tasa de muestreo por bit por
muestra por número de canales para reproducción
estéreo). Esta salida representa un ancho de banda de
aproximadamente 1,5 MHz (más de 60 veces del que posee la
señal analógica original). Para los medios de
almacenamiento, esto no ha sido un factor limitante en el
desarrollo de estaciones de trabajo (workstations) y/o de
sistemas de reproducción al aire, pero ello puede ser un
problema en aplicaciones de transmisión.
Para disfrutar del audio digital de uso extendido a lo
largo de la industria del broadcast, el ancho de banda de la
señal digitalizada debe reducirse. Se disponen ahora de
una variedad de sistemas innovativos que reducen el ancho de
banda del audio digital con calidad de CD. Por numerosas razones,
la transmisión de audio de alta calidad será la de
mayor demanda y de aplicación persistente de tales
técnicas de reducción de datos.
Están disponibles ahora varias técnicas
que reducen la tasa de datos de las señales de audio PCM
de 16 bits estándar tanto que ellas pueden transportarse
sobre líneas de 64 Kbps, 96 Kbps, 128 Kbps
o 256 Kbps (dependiendo de la frecuencia de muestreo y la
relación de reducción de la tasa de bits). Esto
permite su transmisión sobre ISDN, fracciones de canal
T-1, etc. Las relaciones de compresión (cociente entre la
tasa de bits de entrada al compresor y la tasa de bits a la
salida del compresor) comunes varían entre 4:1 a tan altas
como 12:1.
Hoy en día, y por lo que concierne a las redes
troncales, los cables de fibra
óptica permiten la transmisión de
señales digitales de vídeo y audio de una forma
más fácil que en el pasado.
No obstante, todavía son numerosas las
aplicaciones que requieren ahorro en el
ancho de banda utilizado, siendo virtualmente obligatorio el uso
de la compresión de señales en las aplicaciones
vía satélite o mediante radioenlaces. Por otra
parte, el costo de los medios de transmisión y las tarifas
por su utilización juegan un papel importante en la
elección de la velocidad de transmisión deseada.
Ello explica como, incluso en el caso de transmisión por
fibra óptica,
puede ser útil la economía del ancho de
banda.
La tremenda evolución en el desarrollo de la
tecnología de señales digitales, en la
fabricación de microprocesadores
y en la capacidad de las memorias
actuales, permite la ejecución en tiempo real de
algoritmos extremadamente complejos, garantizando así que
la calidad del audio (y vídeo) se vea apenas afectadas por
la compresión.
Actualmente se hallan completamente desarrolladas
técnicas de reducción de redundancia para
aplicaciones de contribución, siendo en la actualidad
utilizadas de forma aún más generalizada en redes
de distribución secundarias.
De lo expuesto se puede apreciar claramente que es
necesario encontrar una manera de acomodar los cuantiosos flujos
de datos a los medios de transmisión y almacenamiento
disponibles. La solución a este problema no es otra
más que la compresión de los datos representativos
del audio (y vídeo); manteniendo lo mejor posible, de
acuerdo a los requerimientos del servicio en
particular, la calidad audiovisual resultante.
De acuerdo con lo expresado anteriormente se puede decir
que hay dos razones fundamentales por lo
cual las técnicas de compresión se usan:
Figura 1.2
Conclusión: El objetivo buscado es obtener
una reducción del ancho de banda ocupado por las
transmisiones de audio (y vídeo) así como
también disminuir la capacidad necesaria para el
almacenamiento de dichas informaciones, ya sea por cuestiones de
practicidad o por cuestiones económicas.
• Una señal o dato es
irrelevante cuando su presencia no es
perceptible por la mayoría de los evaluadores
(observadores y/u oyentes) o cuando no produce efecto alguno
sobre el sistema.
• Una señal o dato es
redundante cuando su presencia, aunque
perceptible, no provee un aporte a la información ya
conocida.
Teniendo en cuenta estas dos características, los
distintos métodos de compresión se proponen
eliminar del caudal de datos aquéllos que son irrelevantes
y/o redundantes.
Un buen algoritmo de
compresión tiene dos metas. La primer meta es proveer un
método
más eficiente de representación de la imagen (y/o
del sonido). La segunda meta es sacrificar aquellas
características del cuadro de vídeo (y/o secuencia
PCM para el caso del audio) a las que los sentidos
humanos son menos sensibles y sacrificar también aquella
información de sucesos que son muy poco probables que
aparezcan (es decir, en la codificación, solo se
tendrán en cuenta los sucesos habituales).
Clasificación de
las redundancias en el audio
La mayoría de los sistemas de audio digital usan
técnicas de modulación por codificación de
pulsos (PCM) para digitalizar las señales de audio
analógicas. Los sistemas de alta calidad, tales como los
formatos CD's con PCM lineal de 16 bits, resultan en tasas de
datos que exceden en mucho la tasa de información de la
señal original. Por esta razón, los datos digitales
PCM son altamente redundantes y generalmente con grandes anchos
de banda.
Las redundancias en PCM pueden identificarse en dos
importantes áreas:
1) Redundancias objetivas (o
redundancias) las cuales son medibles y cuantifican ciertas
características numéricamente predecibles de las
señales de audio, tales como la periodicidad de las formas
de onda
2) Redundancias subjetivas (o
irrelevancia), las que resultan de los fenómenos
psicoacústicos de la audición humana. (La
eliminación de redundancia es también citada como
compresión estadística, mientras que la
remoción de la irrelevancia es frecuentemente llamada
codificación perceptiva).
La figura 1.3 ilustra este principio en forma
gráfica. Las curvas superiores en cada una de las muestras
de música
exhibe la respuesta de amplitud en el tiempo, mientras que las
inferiores son el trazado de la amplitud vs. frecuencia de un
breve muestreo de 32 mseg. Notar que la forma de onda (b)
superior es altamente periódica y repetitiva, y que el
espectro es ponderado predominantemente hacia las bajas
frecuencias debajo de los 4 KHz. Usando estas dos fundamentales
propiedades, pueden idearse esquemas que examinen la forma de
onda del audio o en el dominio del tiempo (la familiar respuesta
amplitud en el tiempo) o dentro del dominio de la frecuencia,
mediante por ejemplo la ejecución de la transformada de
Fourier sobre la forma de onda más relevante.
Figura 1.3. (a) Guitarra
clásica y (b) trombón
Compresión sin
pérdidas y con pérdidas
Las técnicas de compresión de audio, en
general, se pueden clasificar en dos categorías
básicas: sin pérdidas y con pérdidas. Aunque
hay muchas diferentes técnicas de compresión, todas
ellas caen en una u otra de estas categorías.
En la compresión sin
pérdidas, los datos del expansor son
idénticos bit por bit a los datos originales de la fuente.
La compresión sin pérdida, también es
conocida como compresión reversible, ya que no pierde
datos. La señal de audio comprimido puede ser
descomprimida sin omitir ninguna muestra de información.
La compresión sin pérdida, sin embargo, permite
solo una modesta reducción de tasa de bit.
Los programas del
tipo del ‘Stacker’ que aumentan la capacidad aparente
de unidades de disco en computadoras personales usan codecs sin
pérdida. Se puede ver claramente que para los programas de
computadora la
corrupción
de un solo bit puede ser catastrófica. La
compresión sin pérdidas se restringe generalmente a
factores de compresión de alrededor 2:1.
Es importante apreciar que un codificador sin
pérdidas no puede garantizar un factor de
compresión en particular y por lo tanto los
vínculos de comunicaciones o los procedimientos de
almacenamiento utilizados deberán ser capaces de funcionar
con una tasa de datos variable.
Los datos de fuente, que en un codec determinado, causan
factores pobres de compresión son conocidos como
dificultad del material. Se debe indicar que la dificultad es
frecuentemente una función del codec. En otras palabras,
los datos que un codec encuentra difícil puede que
otro no lo encuentre difícil.
Los codecs sin pérdida pueden incluirse en los
planes de prueba de la tasa de bits erróneos. Es
también posible poner en serie o en tándem codecs
sin pérdida sin precauciones especiales.
En la compresión con
pérdidas, los datos desde el expansor no son
idénticos bit a bit a los datos de la fuente. La
compresión con pérdida es irreversible, ya la
señal de audio reconstruida perderá algunos de sus
muestras originales.
La compresión con pérdida, permite una
más alta reducción de la tasa de bits. En general,
una mayor compresión crea una mayor distorsión pero
con técnicas cuidadosamente seleccionadas, esta
distorsión puede hacerse bastante imperceptible al
oído
humano. Los codecs con pérdida no son apropiados para los
datos de computadora, pero son habituales en aplicaciones de
audio puesto que ellos permiten un mayor factor de
compresión que los codecs sin pérdida.
Los codecs con pérdida exitosos son aquellos en
los cuales las diferencias se arreglan para que un oyente humano
los encuentre subjetivamente difícil de percibir.
Así los codecs con pérdida deben ser basados en una
comprensión de percepción
psicoacústica. Estos se llaman frecuentemente
códigos perceptivos.
En la compresión (o codificación)
perceptiva, un mayor factor de compresión,
requerirá, que deban modelarse más precisamente los
sentidos humanos. Los codificadores perceptivos tienen la ventaja
de que pueden forzarse a operar a un factor fijo de
compresión. Esto es conveniente para aplicaciones
prácticas de transmisión y almacenamiento donde una
tasa fija de datos es más fácil de manejar que una
tasa variable. El resultado de emplear un factor fijo de
compresión es que la calidad subjetiva puede variar con la
"dificultad" del material de entrada al codec.
Los codecs perceptivos no deberían conectarse en
tándem (en cascada) indiscriminadamente, especialmente si
ellos usan algoritmos diferentes. Debido a que la señal
reconstruida desde un codec perceptivo no es bit a bit precisa,
tal codec no puede incluirse en cualquier sistema de prueba de la
tasa de bits erróneos puesto que las diferencias
introducidas por la compresión serían
indistinguibles de los verdaderos errores.
Los códigos sin pérdida son menos comunes
en audio (y en vídeo) donde los códigos perceptivos
pueden utilizarse. Los códigos perceptivos frecuentemente
obtiene una ganancia de codificación acortando las
longitudes de las palabras de datos que representan la forma de
onda de la señal. Esto aumenta el nivel de ruido. El truco
está en asegurarse que el ruido resultante se pone a
frecuencias donde los sentidos humanos son menos capaces de
percibirlo. Como resultado, aunque la señal recibida sea
apreciablemente diferente de los datos de la fuente, puede
parecerle lo mismo al oyente. Lográndose así
factores moderados de compresión. Como estos
códigos confían en las características de la
audición, ellos pueden solamente probarse en forma
totalmente subjetiva.
El factor de compresión de tales códigos
puede establecerse a voluntad por elección de la longitud
de las palabras de los datos comprimidos. Una compresión
leve sería indetectable, pero con un mayor factor de
compresión, las dificultades de codificación
llegarían a ser perceptibles.
Generalidades. Experimentos
realizados.
Los modelos
psicoacústicos se componen a partir de las percepciones de
un grupo de personas entrenadas para rendir al máximo en
este campo. Por medio de una serie de experimentos se puede
determinar la sensibilidad del oído humano a una serie de
fenómenos, de forma que aparezcan resultados útiles
para el tratamiento del sonido, como ya hemos visto.
Las tres siguientes características de la
audición se acompañan del experimento que sirve
para cuantificarlas.
- Sensibilidad del oído humano.
Experimento: situar a la persona aislada
de otros sonidos y ofrecer un tono de 1 KHz al nivel
mínimo de sonido posible. Elevar el volumen hasta
que sea justo perceptible. Variar la frecuencia y representar
en la gráfica.
Figura 2.1. Sensibilidad del
oído humano en función de la
frecuencia
- Enmascaramiento en frecuencia. Experimento: en
las mismas condiciones, ofrecer un tono de 1 KHz (enmascarador)
a un volumen determinado (60 dB, por ejemplo). Ofrecer un
sonido de prueba a 1,1 KHz y elevar su volumen hasta que sea
justo perceptible. Variar la frecuencia del tono de prueba y
trazar la gráfica del límite de
audición.
Figura 2.2. Enmascaramiento en frecuencia del tono de 1
KHz
Repetir para todas las frecuencias de tonos
de prueba necesarias.
Figura 2.3. Enmascaramiento de
diversos tonos de prueba
- Enmascaramiento temporal. Experimento:
en las mismas condiciones, ofrecer un tono enmascarador de 1
KHz a 60 dB y un tono de prueba de 1,1 KHz a 40 dB. El tono de
prueba no es audible. Parar el tono enmascarador y, con un
pequeño retraso, el de prueba. Aumentar el retraso hasta
que se distinga el tono de prueba.
Figura 2.4. Variación del
volumen audible con el retardo
Realizar a la inversa, el enmascaramiento pre-temporal
también existe, aunque en un tiempo muy inferior, casi
despreciable. Repetir para diversas frecuencias y
volúmenes y representar.
Figura 2.5. Representación
tridimensional del enmascaramiento
La percepción auditiva está basada en el
análisis de bandas criticas en la parte
más interna del oído donde la transformación
de frecuencia-espacio tiene lugar en la membrana basilar. El
espectro de potencia no
está representado en una escala lineal de frecuencias sino
sobre bandas limitadas de frecuencia denominadas ‘Bandas
Críticas’.
El sistema de audición puede ser descripto como
un banco de filtros
pasabanda, constituidos por filtros pasabandas fuertemente
solapados con anchos de bandas del orden de los 100 Hz para
frecuencias por debajo de 500 Hz y del orden de 5 KHz para
señales de frecuencias superiores.
Hasta los 24 KHz son 26 las ‘Bandas
Críticas’ a ser tenidas en cuenta.
Enmascaramiento
simultáneo (dominio frecuencia)
El enmascaramiento simultáneo es un
fenómeno que tiene lugar en el dominio de la frecuencia
donde las señales de bajo nivel (por ejemplo podría
ser un tono puro) puede volverse inaudible al oído humano
si simultáneamente una señal más fuerte (por
ejemplo un ruido de banda angosta) está lo suficientemente
próximo en frecuencia.
Figura 2.6
Por ejemplo, para un tono de 1 KHz, un UMBRAL de
ENMASCARAMIENTO puede ser medido, de manera que cualquier
señal debajo del mismo no será audible. El umbral
de enmascaramiento depende del nivel de presión sonora
(SPL) (volumen de la señal) y de la frecuencia de la
señal enmascarada.
En este caso un tono de 1 KHz con una presión
sonora de 60 dB presenta un umbral de enmascaramiento como el que
se observa en la figura 2.6 por lo que cualquier señal
cuyo nivel de presión sonora (SPL) se ubique por debajo de
este umbral no será percibida por el oído humano.
Cabe destacarse que la pendiente de la curva descripta por el
umbral de enmascaramiento es mas pronunciada hacia las bajas
frecuencias (de lo que deduce que frecuencias cercanas más
altas que la enmascaradora pueden ser más
fácilmente enmascarables). Por otra parte la distancia
entre el nivel de enmascaramiento y el umbral de enmascaramiento
es menor cuando un ruido enmascara un tono que a la
inversa.
Las contribuciones del ruido y de señales de bajo
nivel son enmascaradas dentro y fuera de una determinada banda
critica si su SPL está por debajo del UE. Los aportes
producidos por el ruido pueden deberse al ruido de
codificación, distorsión por aliasing y ruidos de
transmisión.
Sin la presencia del enmascarador una señal
será inaudible si su SPL está por de bajo del
umbral de silencio, el cual depende de la frecuencia y recorre un
rango dinámico de 60 dB como se puede observar en la curva
inferior de la figura anterior.
Figura 2.7
En la figura 2.7 se pueden ver mas detalles del umbral
de enmascaramiento:
La distancia entre el nivel de la señal
enmascaradora (un tono en el ejemplo) y el umbral de
enmascaramiento se la denomina Relación Señal
Máscara (SMR). El valor
máximo se halla en el borde izquierdo de la Banda Crítica
(BC) (punto A). Dentro de la BC el ruido de codificación
no será audible en tanto la Relación
Señal-Ruido (SNR) sea mayor que la SMR.
Consideremos por ahora a la SNR como la relación
resultante de una cuantificación de m-bits, luego la
distorsión perceptible en una dada subbanda es entonces
medida como la Relación Ruido Máscara
(NMR)
NMR=SMR-SNR (en dB.). La NMR describe la diferencia
entre el ruido de codificación en una determinada subbanda
y el nivel donde una distorsión se vuelve audible; este
valor (expresado en dB) debe ser negativo.
Hasta ahora se ha descripto el enmascaramiento producido
por una sola señal enmascaradora. Si la fuente de
señal consta de numerosas señales enmascaradoras el
Umbral Global de Enmascaramiento puede ser calculado como el
aporte que realizan el resto de las bandas sobre la considerada
obteniéndose el nivel de distorsiones perceptibles en
función de la frecuencia.
El cálculo
del umbral global de enmascaramiento esta basado en la suma (en
dB.) de los enmascaramientos individuales de todas las bandas
comprendidas en la señal de audio o voz, suficiente para
el análisis basado en bandas criticas y es determinado en
audio a través de la Transformada Rápida de Fourier
(FFT) de orden 512 o 1024.
En un primer paso los umbrales de enmascaramiento
individuales son calculados dependiendo del tipo de enmascarador
(tono o ruido) y rango de frecuencia.
Luego, el umbral total de enmascaramiento es calculado
por adición de los niveles individuales de enmascaramiento
a lo que se le adiciona también el umbral de silencio
(esto hace que se asegure que el umbral global de enmascaramiento
no se ubique nunca por debajo del de silencio)
Los efectos del enmascaramiento sobrepasando los
límites de las bandas críticas deben ser incluidos
en el cálculo. Por último la Relación
Señal Mascara Total (TSMR) se determina como la
relación entre el máximo de potencia de la
señal y el umbral de enmascaramiento Global (o como la
diferencia en dB) (ver fig. anterior)
Junto con el enmascaramiento simultáneo, otros
dos fenómenos juegan un importante rol en la
percepción del audio en el ser humano:
- Pre enmascaramiento
- Post enmascaramiento
Los efectos de enmascaramiento temporal tienen lugar
antes y después que una señal comience y termine.
Los efectos del Pre enmascaramiento tienen una duración de
una décima parte del post enmascaramiento y según
lo determinan nuevos estudios es bastante menor que ese
valor.
La duración del pos enmascaramiento esta en el
orden de los 50 a 200 mseg.
Ambos efectos son explotados en los algoritmos de
codificación de ISO/MPEJ.
Figura 2.8. Efectos del pre y post
enmascaramiento
Determinación del enmascaramiento
temporal. Experimento: en las mismas condiciones, ofrecer
un tono enmascarador de 1 KHz a 60 dB y un tono de prueba de 1,1
KHz a 40 dB. El tono de prueba no es audible. Parar el tono
enmascarador y, con un pequeño retraso, el de prueba.
Aumentar el retraso hasta que se distinga el tono de
prueba.
Codificación
Basada en la Percepción.
En los codificadores basados en la percepción el
proceso de codificación esta controlado por la
Relación Señal a Mascara Global (GSMR) versus la
curva de Frecuencia. Si la tasa de bits necesaria para un
enmascaramiento completo de la distorsión esta disponible
el esquema de codificación será transparente (la
señal decodificada será indistinguible de la
señal fuente). Cabe señalar que la tasa de bits a
la salida del codificador se mantiene constante, pudiendo darse
casos donde la tasa disponible excede los requerimientos de la
codificación (y por ende la codificación se
efectúa en forma optima). En otros casos la tasa
disponible a la salida es insuficiente para las pretensiones del
codificador (en cuyo caso la transmisión incluirá
ruido de codificación). Si la tasa de bits para un
enmascaramiento completo no esta disponible, entonces el umbral
de enmascaramiento global sirve como una función de
ponderación del error espectral; el espectro de error
resultante tiene la forma del umbral de enmascaramiento
global.
En los diseños prácticos de
codificación basada en la percepción, no se puede
sobrepasar los límites establecidos por el enmascaramiento
dado que el procesamiento posterior de la señal
acústica (por ejemplo filtrados en ecualizadores) por el
usuario final y los múltiples procesos de
codificación y descodificación pueden desenmascarar
el ruido. Además, dado que el
conocimiento acerca del enmascaramiento auditivo es muy
limitado, el modelo auditivo usado para en el diseño
de un modelo particular de codificador basado en la
percepción no es lo suficientemente preciso, por lo que,
como un requerimiento adicional, se necesita un margen de
seguridad en
los diseños prácticos de codificadores.
Las representaciones digitales de formas de ondas
analógicas producen la introducción de alguna clase de
distorsión la cual puede ser expresada:
- A través de algún criterio subjetivo
tal como lo es el ‘Mean Opinion Score’
(Opinión de puntaje promedio) como una medida de
similitud en la percepción. - Por un simple criterio objetivo como lo es la
relación señal ruido (SNR) como medida de la
similitud entre dos formas de ondas (la original y la
reconstruida), o - A través de un criterio complejo que sirve
como medición objetiva de la similitud
percibida, el cual contempla hechos acerca de la
percepción de un auditorio humano.
El más popular de los métodos de evaluación
es el ‘Puntaje de la opinión
media’ MOS (Mean Opinion
Score) donde individuos clasifican la calidad de los
codificadores sobre una escala de calidad de N puntos.
El resultado final de tales exámenes es un Juicio
promediado (MOS). Dos escalas graduadas en 5 puntos se
usan,
- Una para medir la calidad de la señal
y
- Otra para medir sus diferencias respecto de la
fuente. Un puntaje de 5 en la escala de diferencia indica que
la señal reconstruida no puede ser diferenciada de la
fuente (al oído humano), mientras que un puntaje de 4
indica que la señal reconstruida si bien se diferencia,
no resulta molesta la diferencia. La escala de diferencia
resulta extremadamente útil sobre todo si los
codificadores con pequeñas distorsiones deben ser
evaluados.
Los exámenes del formato ISO/MPEG han mostrado
que los exámenes de Triple estímulo,
referencia oculta, doble escondido, basados en tales
evaluaciones (MOS) conducen a resultados fiables, no obstante
pequeñas diferencias en calidad se han
detectado.
En estas pruebas tres
señales A, B y C (Triple Stimulus) son escuchadas por
oyentes adiestrados siendo:
- A: siempre es la señal fuente
- B y C son la señal reconstruida y la fuente
pero tanto el oyente como el instructor de la prueba desconocen
cual es una u otra (Double Blind) (Hidden
reference).
Los oyentes deben determinar si B o C son la fuente y en
caso de poder
distinguirlas calificar la diferencia (de 1 a 5).
El lado negativo es que los resultados varían de
acuerdo al panel de oyentes y al tiempo en que se realizan (por
ser subjetivo) pudiendo los resultados variar mucho entre el
promedio y determinados tipo de señal bajo
prueba.
No obstante los exámenes realizados por MPEG y
CCIR con paneles adiestrados de oyentes condujeron a resultados
similares y estables.
Las medidas basadas en la percepción hacen uso de
los umbrales de enmascaramiento derivados de la señal de
ingreso, en orden de compararlos con el ruido de
codificación actual del codificador. Resultados recientes
han demostrados que tales medidas dan altas correlaciones entre
los puntajes MOS y puntajes objetivos.
Por ejemplo, la medición de la calidad de audio
percibible se ha aplicado a señales de audio en el CCIR en
pruebas de transmisión de sonido digital
obteniéndose una correlación de 0,98 y una
desviación estándar de 0,17.
Otro conjunto de parámetros, incluyendo
relaciones de ruido a máscara locales (local Noise to Mask
relations) y promedio de todas las bandas críticas, han
probado que es fácilmente implementable y lo
suficientemente preciso, para resultar útil en el
diseño del codificador y su evaluación. En el CCIR,
los tests de codificación de audio arrojaron una
correlación de 0,94 y una desviación
estándar de 0,27.
Figura 2.9. MOS de la Capa II (64 Kbps
por canal)
En muchos tests de escuchas, Layer III ha demostrado su
elevada performance. En noviembre de 1991, tuvo lugar en
Hannhover el primero de los tests de la aún incompleta
implementación de Layer III en los estudios de la NDR. En
éstos, Layer III probó ser notablemente superior a
Layer II a igual tasa de bits, superando además a ASPEC el
cual, hasta entonces, ostentaba la mejor calidad en codecs de 64
Kbs por canal de audio.
[a] Layer II y Layer III sin
joint-stereo a 64 Kbs por canal de audio, solamente
reproducción de altoparlantes.
[b] Layer II y Layer III
con joint-stereo a 64 Kbs por canal de
audio, solamente reproducción de altoparlantes
Figura 9.10 Resultados comparativos entre
Layer II y Layer III en los tests del CCIR
Para aplicaciones de transmisión de audio digital
con codecs de bajo bitrate, se llevaron a cabo tests desde enero
de 1992 a julio de 1992 en los que participaron
práctimante todos los codecs disponibles hasta ese
entonces. Se identificaron cuatro campos de aplicación,
cada uno con diferentes requerimientos:
- Enlaces con una tasa de 180
Kbits por canal de audio (codificados
independientemente), con 20 KHz de ancho de banda y sin
diferencias notables luego de 5 codecs en
cascada. - Enlaces con una tasa de 120
Kbits por canal de audio (codificados
independientemente), con 20 KHz de ancho de banda y sin
diferencias notables luego de 3 codecs en
cascada. - Enlaces con una tasa de 128
Kbits por canal de audio (codificados
independientemente) o 96 Kbits (en joint
stereo), con 20 KHz de ancho de banda y una calidad de sonido
superior a 4 de acuerdo a la tabla del
CCIR. - Enlaces con una tasa de 60 Kbits
por canal de audio (mono o joint stereo), con 15 KHz de ancho
de banda y una calidad de sonido equivalente al formato PCM
lineal de 14 bits.
En todas las categorías los codecs ISO-MPEG Layer
II y III obtuvieron los mejores resultados.
En realidad, Layer III resultó ser el
único codec que proveyó de una aceptable calidad de
sonido para la codificación independiente a 60 Kbits/seg.
Para el test calificado
como: "VOZ MASCULINA" el valor medio en la escala de diferencias
del CCIR fue de 4.4 (comparado con 2.4 en Layer II). En general,
en tests con altos contenidos de pre-ecos (castañuelas o
percusiones) el valor medido (según CCIR), fue de 3.6 para
Layer III (comparado con 2.05 para Layer II). A manera de
preservar una suficiente tasa para la transmisión de datos
auxiliares (ancillary data), el test se efectuó con 60 Kbs
(en vez de 64 Kbs).
3 – Norma ISO/IEC 11172
– 3 : Audio
GENERALIDADES – El
Estándar ISO/MPEG
El estándar MPEG Audio contempla tres niveles
diferentes de codificación – decodificación de la
señal de audio, de los cuales sólo los dos primeros
están totalmente terminados. El otro es aplicable, y de
hecho se utiliza habitualmente, pero sigue abiertos a
ampliaciones. Estos tres niveles son:
- MPEG-1: "Codificación de
imágenes en movimiento y audio asociado para medios de
almacenamiento digital hasta 1’5 Mbit/s" - MPEG-2: "Codificación genérica
de imágenes en movimiento e información de audio
asociada" - MPEG-3: la planificación original contemplaba su
aplicación a sistemas HDTV; finalmente fue incluido
dentro de MPEG-2. - MPEG-4: "Codificación de objetos
audiovisuales"
A su vez, MPEG describe tres layers (capas) de
codificación de audio denominados layer-1, layer-2 y
layer-3. Del primero al tercero aumentan tanto la complejidad del
codificador como la calidad del sonido a igual tasa de bits. Los
tres son compatibles jerárquicamente, esto es, el
decodificador layer-i es capaz de interpretar información
producida por un codificador layer-i y todos los niveles por
debajo del i. Así, un decodificador layer-3 acepta los
tres niveles de codificación, mientras el layer-2
sólo acepta el 1 y el 2.
MPEG define, para cada layer, el formato del
bitstream y el decodificador (que puede ser implementado de
diferentes maneras). Con vistas a admitir futuras mejoras
no se define el codificador, pero en un apartado
informativo se da un ejemplo de codificador para cada uno de los
layers. Hay que decir que tanto MPEG-1 como MPEG-2 emplean estos
tres layers, pero este último añade nuevas
características.
ASPEC y MUSICAM , los
padres de la norma ISO MPEG 1
En julio de 1990, cuatro sistemas fueron testeados en
la Radio Sueca
(Swedish Radio):
- MUSICAM
- ASPEC
- ATRAC
- SB-ADPCM
Al final de las pruebas, se consagraron 2
ganadores:
MUSICAM: por tener el puntaje general más alto, y
ASPEC que consiguió la mejor calidad sonora, especialmente
a bajas tasas de bits. Estos dos esquemas de codificación
constituyeron los fundamentos para las tres capas de audio del
estándar ISO MPEG 1.
MUSICAM fue la base para las capas I y II a tal punto
que la capa II es prácticamente idéntica al MUSICAM
y Layer I es una versión simplificada de éste.
Ambos, Layer I y II cumplieron los requerimientos de la ISO para
la tasa de bits de 192 y 128 Kbps respectivamente para la primera
mitad de 1991, por lo que su especificación quedó
establecida y las aplicaciones pudieron comenzar a hacer uso de
ésta.
Layer III combina las mejores ideas de ASPEC y MUSICAM.
El proceso de fusión
requirió una cantidad de tiempo considerable, gran
cantidad de modificaciones y nuevos desarrollos por lo que su
especificación recién estuvo lista para los fines
de la primera mitad de 1992. Los primeros productos comerciales
para Layer III recién estuvieron disponibles en el
mercado en
1993.
Procesa la señal digital de audio (PCM) y genera
el bitstream comprimido para el almacenamiento. El algoritmo del
codificador no está estandarizado, y pueden ser utilizados
varios medios, tales como la estimación del umbral de
enmascaramiento auditivo, cuantificación y establecimiento
de la escala (escalado) de la señal. De cualquier modo, la
salida del codificador debe ser tal que el
decodificador que cumpla con las especificaciones de la
cláusula 2.4. de la norma producirá una
señal de audio compatible para la aplicación
propuesta.
Estructura básica del
codificador
Las muestras de audio ingresan al codificador. El mapeo
crea una representación filtrada y submuestreada de la
tira de audio de entrada. Las muestras mapeadas pueden llamarse
tanto muestras de subbanda (como en layer I y II) o muestras de
subbandas transformadas (como en layer III) .
Un modelo psicoacústico crea un conjunto de datos
para controlar el cuantificador y codificación. Estos
datos son diferentes dependiendo de la implementación
actual del codificador. Una posibilidad es el uso de una
estimación del umbral de enmascaramiento (UE) para
efectuar el control de la
cuantificación. El cuantificador y el bloque de
codificación crean un conjunto de símbolos codificados con las muestras de
entrada mapeadas. Nuevamente , este bloque puede depender del
sistema de codificación. El bloque de empaquetado de la
trama ensambla el bitstream actual desde la salida de datos de
los otros bloques y le agrega información adicional (por
ej. corrección de error) si es necesario.
Hay 4 diferentes modos posibles :
- canal único (monofónico)
- doble canal (2 canales de audio independientes el uno
del otro) - estéreo (canal derecho e izquierdo de audio en
un bitstream) - joint_stereo (2 canales donde pueden explotarse
redundancias e irrelevancias entre ambos)
Dependiendo de la aplicación, capas diferentes
del sistema de codificación con creciente complejidad de
codificación y mejor performance pueden ser usadas. Un
decodificador ISO/IEC 11172 de capa N es capaz de decodificar el
bitstream codificado para esa capa y también para capas
anteriores a la N.
El codificador para Layer 1 usa bloques por subbanda
fijos de 12 muestras diezmadas.
El mapeado tiempo – frecuencia se realiza con un banco
de filtros polifase con 32 subbandas. Los filtros polifase
consisten en un conjunto de filtros con el mismo ancho de banda
con interrelaciones de fase especiales que ofrecen una
implementación eficiente del filtro subbanda. Se denomina
filtro subbanda al que cubre todo el rango de frecuencias
deseado. En general, los filtros polifase combinan una baja
complejidad de computación con un diseño flexible y
múltiples opciones de implementación.
El modelo psicoacústico utiliza una FFT (Fast
Fourier Transform) de 512 puntos para obtener información
espectral detallada de la señal. El resultado de la
aplicación de la FFT se utiliza para determinar los
enmascaramientos en la señal, cada uno de los cuales
produce un nivel de enmascaramiento, según la frecuencia,
intensidad y tono. Para cada subbanda, los niveles individuales
se combinan y forman uno global, que se compara con el
máximo nivel de señal en la banda, produciendo el
SMR que se introduce en el cuantizador.
El bloque de cuantización y codificación
examina las muestras de cada subbanda, encuentra el máximo
valor absoluto y lo cuantiza con 6 bits. Este valor es el factor
de escala de la subbanda. A continuación se determina la
asignación de bits para cada subbanda minimizando el NMR
(noise-to-mask ratio) total. Es posible que algunas
subbandas con un gran enmascaramiento terminen con cero bits, es
decir, no se codificará ninguna muestra. Por último
las muestras de subbanda se cuantizan linealmente según el
número de bits asignados a dicha subbanda
concreta.
El trabajo del empaquetador de trama es sencillo. La
trama, según la definición ISO, es la menor parte
del bitstream decodificable por sí misma. Cada trama
empieza con una cabecera para sincronización y
diferenciación, así como 16 bits opcionales de CRC
para detección y corrección de errores. Se emplean,
para cada subbanda, 4 bits para describir la asignación de
bits y otros 6 para el factor de escala. El resto de bits en la
trama se utilizan para la información de muestras, 384 en
total, y con la opción de añadir cierta
información adicional. A 48 Khz, cada trama lleva 8 ms de
sonido.
Cada factor de escala está representado por 6
bits y es transmitido para cada bloque de subbanda a menos que la
regla de asignación de bits indique que dicho bloque de
subbanda y su factor de escala no necesitan ser
transmitidos.
Por cada bloque de 12 muestras se calcula la SMR a
través de la FFT de 512 puntos.
Para cada subbanda la asignación de bits
selecciona un cuantificador uniforme de un conjunto de 15
cuantificadores con M=2**m -1 niveles (m=0 o m=2…
15bits).
4 Bits se necesitan por bloque para la
información de asignación de bits.
Los tests subjetivos de la ISO/MPEG arrojaron un MOS
(Mean Opinion Score) de 4,7 para una tasa de 192 Kb/s por canal
monofónico y el peor fue de 4,4 para una de las
pruebas.
El mapeado tiempo-frecuencia se realiza con un banco de
filtros polifase con 32 subbandas. Los filtros polifase consisten
en un conjunto de filtros con el mismo ancho de banda con
interrelaciones de fase especiales que ofrecen una
implementación eficiente del filtro subbanda. Se denomina
filtro subbanda al que cubre todo el rango de frecuencias
deseado. En general, los filtros polifase combinan una baja
complejidad de computación con un diseño flexible y
múltiples opciones de implementación.
El modelo psicoacústico utiliza una FFT (Fast
Fourier Transform) de 512 puntos para obtener información
espectral detallada de la señal. El resultado de la
aplicación de la FFT se utiliza para determinar los
enmascaramientos en la señal, cada uno de los cuales
produce un nivel de enmascaramiento, según la frecuencia,
intensidad y tono. Para cada subbanda, los niveles individuales
se combinan y forman uno global, que se compara con el
máximo nivel de señal en la banda, produciendo el
SMR que se introduce en el cuantizador.
El bloque de cuantización y codificación
examina las muestras de cada subbanda, encuentra el máximo
valor absoluto y lo cuantiza con 6 bits. Este valor es el factor
de escala de la subbanda. A continuación se determina la
asignación de bits para cada subbanda minimizando el NMR
(noise-to-mask ratio) total. Es posible que algunas
subbandas con un gran enmascaramiento terminen con cero bits, es
decir, no se codificará ninguna muestra. Por último
las muestras de subbanda se cuantizan linealmente según el
número de bits asignados a dicha subbanda
concreta.
El trabajo del empaquetador de trama es sencillo. La
trama, según la definición ISO, es la menor parte
del bitstream decodificable por sí misma. Cada trama
empieza con una cabecera para sincronización y
diferenciación, así como 16 bits opcionales de CRC
para detección y corrección de errores. Se emplean,
para cada subbanda, 4 bits para describir la asignación de
bits y otros 6 para el factor de escala. El resto de bits en la
trama se utilizan para la información de muestras, 384 en
total, y con la opción de añadir cierta
información adicional. A 48 Khz, cada trama lleva 8 ms de
sonido.
Resumiendo: Incluye la división del
mapeado básico de la señal de audio digital en 32
subbandas, segmentación para el formateo de los datos,
modelo psicoacústico y cuantización fija. El
retraso mínimo teórico es de 19 ms.
El mapeado de tiempo-frecuencia es idéntico al
del layer 1.
El codificador Layer 2 de la ISO/MPEG es
básicamente similar al Layer 1 pero tiene una complejidad
mayor con la que consigue una mejor performance, de acuerdo a
tres modificaciones:
La FFT es de orden 1024 con lo que se obtiene una
resolución en frecuencia más fina para el
cálculo de SMR global. El modelo psicoacústico es
similar. En los demás aspectos, es
idéntico.
Si las características de la señal a
codificar lo permiten, entonces tres muestras consecutivas (un
triplet), pueden codificarse en una única palabra código
(codeword) para su transmisión o
almacenamiento.
El factor de escala total se reduce por un factor de
alrededor de 2; en cada subbanda bloques de 12 muestras se forman
y factores de escala de 3 bloques adyacentes se calculan (lo cual
implica 3 x 12 x 32= 1152 muestras de entrada son tenidas en
cuenta). Dependiendo de sus valores relativos sólo uno,
dos o los tres factores de escala son transmitidos. Solamente uno
de los factores de escala tiene que ser transmitido si las
diferencias son relativamente pequeñas y solamente el
primero de los factores de escala adyacentes tiene que ser
transmitido si el segundo tiene un valor más
pequeño, como en el caso del pos – enmascaramiento puede
ser aprovechado. En el caso de grandes cambios dinámicos
en la señal todos los factores de escala pueden tener que
ser usados. El factor de escala seleccionado o los factores de
escala son nuevamente representados por seis bits. El modelo de
los factores de escala transmitidos será codificado con
2bit/subband en la información adyacente (side
information) – denominado información de factor de escala
selecto (SCFSI).
Se provee una cuantificación más fina con
una resolución de amplitud de hasta 16 bits (lo que reduce
el ruido de codificación). Por otro lado, el número
de cuantificadores disponibles decrece con el incremento del
índice de subbanda, el cual mantiene pequeña la
información lateral (side information). La
codificación continúa como en Layer I.
El bloque de cuantización y codificación
también es similar, generando factores de escala de 6 bits
para cada subbanda. Sin embargo, las tramas del layer II son tres
veces más largas que las del layer I, de forma que se
concede a cada subbanda tres factores de escala, y el codificador
utiliza uno, dos o los tres, según la diferencia que haya
entre ellos. La asignación de bits es similar a la del
layer 1.
El formateador de trama: la definición ISO de
trama es la misma que en el punto anterior. Utiliza la misma
cabecera y estructura de
CRC que el layer 1. El número de bits que utilizan para
describir la asignación de bits varía con las
subbandas: 4 bits para las inferiores, 3 para las medias y dos
para las superiores, adecuándose a las bandas
críticas. Los factores de escala se codifican junto a un
número de dos bits que indica si se utilizan uno, dos o
los tres. Las muestras de subbanda se cuantizan y a
continuación se asocian en grupos de tres,
llamados gránulos. Cada uno se codifica con una palabra
clave, lo que permite interceptar mucha más
información redundante que en el layer 1. Cada trama
contiene, pues, 1152 muestras PCM. A 48 Khz. cada trama lleva 24
ms de sonido.
En resumen: Incluye codificación
adicional, factores de escala y diferente composición de
trama. El retraso mínimo teórico es de 35
ms.
El esquema III es substancialmente más complicado
que los dos anteriores e incluye una serie de mejoras. Su
diagrama de
flujos es conceptualmente semejante al visto para los otros dos
esquemas, salvo que se realizan múltiples iteraciones para
procesar los datos con el mayor nivel de calidad en un cierto
tiempo, lo cual complica su diseño hasta el punto de que
los diagramas ISO
ocupan decenas de páginas.
El mapeado de tiempo-frecuencia añade un nuevo
banco de filtros, el DCT (Discrete Cosine Transform), que con el
polifase forman el denominado filtro híbrido. Proporciona
una resolución en frecuencia variable, 6×32 o 18×32
subbandas, ajustándose mucho mejor a las bandas
críticas de las diferentes frecuencias.
El modelo psicoacústico es una
modificación del empleado en el esquema II, y utiliza un
método denominado predicción polinómica.
Incluye los efectos del enmascaramiento temporal.
El bloque de cuantización y codificación
también emplea algoritmos muy sofisticados que permiten
tramas de longitud variable. La gran diferencia con los otros dos
esquemas es que la variable controlada es el ruido, a
través de bucles iterativos que lo reducen al
mínimo posible en cada paso.
El formateador de trama: la definición de trama
para este esquema según ISO varía respecto de la de
los niveles anteriores: "mínima parte del bitstream
decodificable mediante el uso de información principal
adquirida previamente". Las tramas contienen información
de 1152 muestras y empiezan con la misma cabecera de
sincronización y diferenciación, pero la
información perteneciente a una misma trama no se
encuentra generalmente entre dos cabeceras. La longitud de la
trama puede variarse en caso de necesidad. Además de
tratar con esta información, el esquema III incluye
codificación Huffman de longitud variable, un
método de codificación entrópica que sin
pérdida de información elimina redundancia. Los
métodos de longitud variable se caracterizan, en general,
por asignar palabras cortas a los eventos
más frecuentes, dejando las largas para los más
infrecuentes.
Resumiendo: Incluye incremento de la
resolución en frecuencia, basado en el uso de un banco de
filtros híbrido. Cuantificación no uniforme,
segmentación adaptativa y codificación
entrópica de los valores cuantizados. El retraso
mínimo teórico es de 59 ms.
Cuadro comparativo de los 3
esquemas (layers)
La calidad viene dada del 1 al 5, siendo el 5 la
superior (ver apartado 6). Hay que señalar que pese a los
números de la norma ISO, el retraso típico
acostumbra a ser tres veces mayor en la
práctica.
El decodificador debe procesar el bitstream para
reconstruir la señal de audio digital. La
especificación de este elemento sí esta totalmente
definida y debe seguirse en todos sus puntos. La figura ilustra
el layer del decodificador.
Figura 2: decodificador según la
norma ISO 11172-3
Los datos del bitstream son desempaquetados para
recuperar las diversas partes de la información. El bloque
de reconstrucción recompone la versión cuantizada
de la serie de muestras mapeadas. El mapeador inverso transforma
estas muestras de nuevo a PCM.
Parte del bitstream que es decodificable por sí
mismo. En Layer I contiene información de 384 muestras de
audio mientras que en layer II de 1152. Comienza con una palabra
de sincronismo y termina justo antes de la próxima palabra
de sincronismo. Consiste en un número entero de slots (4
bytes p/layer I y 1 byte p/layer II).
Parte del bitstream que es decodificable con el uso de
la información principal (main information) previamente
adquirida. Cada trama en layer III contiene información de
1152 muestras. Aunque la distancia entre dos tramas consecutivas
es número entero de slots (1 byte p/layer III) la
información de audio perteneciente a una trama no
está generalmente contenida entre dos palabras de
sincronismo.
Cabecera: Parte del bitstream que contiene la
sincronización e información de estado.
Layer | |
11 | Layer I |
10 | Layer II |
01 | Layer III |
00 | reserved |
Dentro de la cabecera se encuentran los sig.
campos:
- Syncword (Palabra de sincronismo) (12
bits): "1111 1111 1111"
- ID (1 bit): indica si la trama responde
a la norma 11172 (ID=1) o no (ID=0)
- Layer (2 bits): de acuerdo a su
contenido indica:
Para cambiar de capa se necesita un reset del
decodificador de audio.
- Protection_bit (1 bit): Indica si se ha
introducido redundancia en el bitstream de audio para facilitar
la detección y/o cancelación de
errores:
- 1 : indica que NO se adiciono redundancia
- 0 : si se adicionó redundancia
Página siguiente |