5.2 Codificación perceptual y el oído humano
El sistema de codificación perceptual es un sistema de compresión con
pérdida, esto quiere decir que el sonido original y el comprimido no son
exactamente iguales. Estas pérdidas tienen en cuenta el funcionamiento del oído
humano, de tal forma que aunque los sonidos no son iguales se perciben como si
lo fuesen.
Podemos comparar el sistema de compresión perceptual del sonido con los sistemas de compresión gráficos JPEG utilizados para codificar imágenes en cámaras fotográficas y en páginas Web. El formato JPEG se diferencia de otros como el BMP o TIFF porque no mantiene la imagen inalterada sino que realizan "aproximaciones" al original en pos de una mayor compresión que reduce el tamaño del archivo.
Sabemos que el sonido es una vibración (piense en una cuerda de guitarra). El número de vibraciones por segundo o ciclos por segundo se llama frecuencia. El oído distingue los sonidos por su frecuencia. Así, las frecuencias de las vibraciones, transmitidas al aire y recogidas por el oído a través del tímpano (membrana situada en el conducto auditivo), de una trompeta son distintas a las producidas por una batería o una guitarra. La unidad que mide la frecuencia es el ciclo por segundo c/seg. o Hertzio (en honor a Frank Hertz que descubrió las ondas de radio).
El oído no es capaz de apreciar una vibración de cualquier frecuencia sino que tiene que estar comprendida dentro de un rango y también depende de la persona y de la edad. El cerebro de cada persona percibe además de forma sutilmente diferente las vibraciones recogidas en el oído a través del tímpano. El rango de frecuencias que percibe el oído humano está entre 20 Hz y 20 Khz (kilo hertzios), es decir entre 20 y 20000 Hertzios. Por lo tanto si un instrumento produce una vibración fuera de ese rango no será percibida por el oído humano. El rango indicado, como es lógico, no es el mismo para todo el mundo. Es difícil encontrar un oído que perciba una vibración de dieciocho o veinte mil Hertzios. Además la edad juega también un papel importante.
Una conversación normal se desarrolla a base de vibraciones producidas por las cuerdas bucales comprendidas entre 400 Hz y 3000 Hz.
El siguiente esquema muestra un diagrama que puede ser aclaratorio
Hay un efecto interesante que podemos aprovechar para reducir el tamaño de
los archivos de audio. Se llama efecto enmascaramiento y se produce cuando hay
un sonido con un volumen alto en una frecuencia y se superpone otro de un
volumen más bajo en una frecuencia cercana. Cuando se produce esta situación, el
segundo sonido queda tapado por el primero. Es inútil grabar ambos porque el
oído humano no detecta el de volumen más bajo.
Por lo tanto de lo que se
trata es de aprovechar los “defectos” del oído humano para desechar todo aquello
que realmente no vamos a oír. Como cada uno tiene un oído diferente, se utilizan
métodos estadísticos para que la pérdida no se aprecie por la mayoría de las
personas.