Para saber como funciona no es necesario explicar el modelo matemático
en que se basa. Basta con entender algunos conceptos.
La explicación más elemental que se puede dar es que es un sistema
de compresión de audio. El objetivo es que una grabación digital
ocupe menos espacio que el original de modo que la pérdida respecto al
original sea lo más inapreciable posible para la mayoría de los
oídos humanos. Para ello la compresión debe hacerse siguiendo
ciertos criterios recogidos en un modelo matemático incluido en una norma
ISO. Este modelo es fruto de profundas investigaciones sobre el comportamiento
del oído humano. La grabación en mp3 ocupa del orden de 1/12 del
original. Esta reducción drástica es muy útil para poder
almacenar grana cantidad de música en poco espacio. Como consecuencia
de la compresión se reducen los tiempos de transmisión por Internet
al tratarse de archivos más pequeños, por lo que es un formato
ideal para transmitir música por internet.
MP3 ( abreviatura de MPEG 1 Layer 3) es un algoritmo de codificación
para el sonido, desarrollado por el consorcio MPEG (Moving Picture Expert Group)
junto con el Instituto Tecnológico Fraunhofer que finalmente se ha estandarizado
como norma ISO-MPEG Audio Layer 3 (IS 11172-3 y IS 13818-3). Esta norma representa
un avance sobre los anteriores desarrollos (Layer 1 y Layer 2).
El hecho de que haya sido adoptado como una norma ISO es más importante
de lo que cabría suponer. Las normas ISO definen muchos estándares
del mercado y tienen un gran peso en la industria. La norma, al ser pública,
facilita el desarrollo de aplicaciones debido a que pone al alcance de cualquiera
el funcionamiento del sistema.
Esta tecnología no es nueva, realmente lleva desarrollándose más
de una docena de años, lo que ocurre es que ahora es el momento en el
que la velocidad de proceso de los ordenadores la ha popularizado para el usuario
doméstico.
El sistema de codificación perceptual es un sistema de compresión
con pérdida, esto quiere decir que el sonido original y el comprimido
no son exactamente iguales. Estas pérdidas tienen en cuenta el funcionamiento
del oído humano, de tal forma que aunque los sonidos no son iguales se
perciben como si lo fuesen.
Podemos comparar el sistema de compresión perceptual del sonido con los
sistemas de compresión gráficos JPEG utilizados para codificar
imágenes en cámaras fotográficas y en páginas Web.
El formato JPEG se diferencia de otros como el BMP o TIFF porque no mantiene
la imagen inalterada sino que realizan "aproximaciones" al original
en pos de una mayor compresión que reduce el tamaño del archivo.
Sabemos que el sonido es una vibración (piense en una cuerda de guitarra).
El número de vibraciones por segundo o ciclos por segundo se llama frecuencia.
El oído distingue los sonidos por su frecuencia. Así, las frecuencias
de las vibraciones, transmitidas al aire y recogidas por el oído a través
del tímpano (membrana situada en el conducto auditivo), de una trompeta
son distintas a las producidas por una batería o una guitarra. La unidad
que mide la frecuencia es el ciclo por segundo c/seg. o Hertzio (en honor a
Frank Hertz que descubrió las ondas de radio). El oído no es capaz
de apreciar una vibración de cualquier frecuencia sino que tiene que
estar comprendida dentro de un rango y también depende de la persona
y de la edad. El cerebro de cada persona percibe además de forma sutilmente
diferente las vibraciones recogidas en el oído a través del tímpano.
El rango de frecuencias que percibe el oído humano está entre
20 Hz y 20 Khz (kilo hertzios), es decir entre 20 y 20000 Hertzios. Por lo tanto
si un instrumento produce una vibración fuera de ese rango no será
percibida por el oído humano. El rango indicado, como es lógico,
no es el mismo para todo el mundo. Es difícil encontrar un oído
que perciba una vibración de dieciocho o veinte mil Hertzios. Además
la edad juega también un papel importante.
Una conversación normal se desarrolla a base de vibraciones producidas
por las cuerdas bucales comprendidas entre 400 Hz y 3000 Hz.
El siguiente esquema muestra un diagrama que puede ser aclaratorio
Hay un efecto interesante que podemos aprovechar para reducir el tamaño
de los archivos de audio. Se llama efecto enmascaramiento y se produce cuando
hay un sonido con un volumen alto en una frecuencia y se superpone otro de un
volumen más bajo en una frecuencia cercana. Cuando se produce esta situación,
el segundo sonido queda tapado por el primero. Es inútil grabar ambos
porque el oído humano no detecta el de volumen más bajo.
Por lo tanto de lo que se trata es de aprovechar los “defectos”
del oído humano para desechar todo aquello que realmente no vamos a oír.
Como cada uno tiene un oído diferente, se utilizan métodos estadísticos
para que la pérdida no se aprecie por la mayoría de las personas.
Para codificar en mp3 se utiliza un sistema denominado Codificación
de Sub-bandas. El proceso consiste en descomponer la señal original en
sub-bandas mediante un banco de filtros. Se comparan las sub-bandas con el original
utilizando el modelo psicoacústico que determina qué bandas son
importantes y cuales se pueden eliminar. El resultado, después de una
compresión, es un archivo en formato mp3
El sistema permite introducir un parámetro llamado bitrate (número
de bits por segundo que se graban) que determina si se eliminan más o
menos datos siguiendo el modelo psicoacústico. Un bitrate alto obtiene
más calidad pero archivos más grandes, así que hay que
encontrar una solución de compromiso de tal forma, que la calidad sea
suficiente y obtengamos archivos no demasiado grandes. Los datos se comprimen
mediante un algoritmo llamado de Huffman.
Dentro del formato MP3 podemos comprimir con distinto ancho de banda, modo y bitrate obteniendo distintas calidades según para que vayamos a utilizar ese sonido.
La siguiente tabla del Instituto Tecnológico Fraunhofer puede ser de
utilidad
| Calidad del sonido | Ancho de banda | Modo | Bitrate | Ratio de compresión |
Sonido telefónico |
2,5 kHz |
Mono |
8 kbps |
96:1 |
Mejor que onda corta |
4.5 kHz |
Mono |
16 kbps |
48:1 |
Mejor que radio AM |
7.5 kHz |
Mono |
32 kbps |
24:1 |
Similar a radio FM |
11 kHz |
Estéreo |
56...64 kbps |
26...24:1 |
Cercano al CD |
15 kHz |
Estéreo |
96 kbps |
16:1 |
CD |
>15 kHz |
Estéreo |
112..128 kbps |
14..12:1 |
Para grabar un disco compacto se muestrea la señal con una frecuencia
de 44100 Hz y se utilizan 16 bits por muestra y en estéreo (dos canales).
Eso equivale aproximadamente a 1400 Kbps (kilo bits por segundo) (44100 x 16
x 2 bits por segundo). Codificándolo por ejemplo a MP3 con bitrate de
128 kbps obtenemos una reducción en torno a un 1/12 del espacio inicial
y excelente calidad. Teniendo en cuenta que un CD tiene unos 700 Mega Bytes
de capacidad, se quedaría en unos 60 Mega Bytes
También se puede optar por comprimir con un bitrate mayor llegando a
192 o incluso 256 kbps. Pero el más popular es el de 128 kbps con el
que se consigue una calidad excelente con una compresión sobresaliente.
Muchos programas permiten configurar diferentes modos de lectura de un CD.
Es un factor a tener en cuenta es el proceso de lectura y grabación en
el disco duro del ordenador.
Llamaremos CD_Audio a un CD-ROM que tiene grabada música. En un CD se
graba digitalmente, es decir, a base de quemaduras producidas por un láser
en la superficie del CD. Cada quemadura se considera un 1 y la ausencia de quemadura
se considera un 0. De esa forma tenemos una serie numérica formada por
ceros y unos que son reflejo de la información que se quiso alamcenar
ya sea música, video o cualquier tipo de datos. Sin embargo, la forma
de almacenar música en un CD (CD-Audio) es muy diferente a como se almacenan
de datos en un CD-Rom o en un disco duro. Los CD-Audio están pensados
para una reproducción secuencial continua, por lo tanto los datos se
almacenan sin ningún tipo de "índice" (sectores, clusters
o unidad mínima de grabación formada por varios sectores contiguos,
etc...). Si el láser del lector se para en una determinada posición,
no es seguro que al continuar parta exactamente de la misma posición
porque no se pudo tomar nota de la posición de la parada. Debido a esto
aparecen los temidos "pops" o chasquidos metálicos que indican
una lectura defectuosa.
Podemos citar tres modos de lectura:
• Normal: Lectura y escritura alternativamente.
• Burst o Power Mode: Lectura y escritura simultáneamente. Es el
más rápido.
• Sincronización de Sectores, Jitter o Overlaping: Se hacen lecturas
solapadas de manera que se suprimen los posibles saltos. Es el método
más lento pero es el más seguro.
Por lo tanto, si el programa lo permite, para evitar fallos en la lectura
de un CD-Audio, hay que configurarla para esa lectura sea por sincronización
de sectores. No importa que sea el método más lento si aseguramos
una mayor calidad en la lectura.