MP3

Para saber como funciona no es necesario explicar el modelo matemático en que se basa. Basta con entender algunos conceptos.
La explicación más elemental que se puede dar es que es un sistema de compresión de audio. El objetivo es que una grabación digital ocupe menos espacio que el original de modo que la pérdida respecto al original sea lo más inapreciable posible para la mayoría de los oídos humanos. Para ello la compresión debe hacerse siguiendo ciertos criterios recogidos en un modelo matemático incluido en una norma ISO. Este modelo es fruto de profundas investigaciones sobre el comportamiento del oído humano. La grabación en mp3 ocupa del orden de 1/12 del original. Esta reducción drástica es muy útil para poder almacenar grana cantidad de música en poco espacio. Como consecuencia de la compresión se reducen los tiempos de transmisión por Internet al tratarse de archivos más pequeños, por lo que es un formato ideal para transmitir música por internet.

MPEG 1 layer 3

MP3 ( abreviatura de MPEG 1 Layer 3) es un algoritmo de codificación para el sonido, desarrollado por el consorcio MPEG (Moving Picture Expert Group) junto con el Instituto Tecnológico Fraunhofer que finalmente se ha estandarizado como norma ISO-MPEG Audio Layer 3 (IS 11172-3 y IS 13818-3). Esta norma representa un avance sobre los anteriores desarrollos (Layer 1 y Layer 2).
El hecho de que haya sido adoptado como una norma ISO es más importante de lo que cabría suponer. Las normas ISO definen muchos estándares del mercado y tienen un gran peso en la industria. La norma, al ser pública, facilita el desarrollo de aplicaciones debido a que pone al alcance de cualquiera el funcionamiento del sistema.
Esta tecnología no es nueva, realmente lleva desarrollándose más de una docena de años, lo que ocurre es que ahora es el momento en el que la velocidad de proceso de los ordenadores la ha popularizado para el usuario doméstico.

Codificación Perceptual y Oído Humano

El sistema de codificación perceptual es un sistema de compresión con pérdida, esto quiere decir que el sonido original y el comprimido no son exactamente iguales. Estas pérdidas tienen en cuenta el funcionamiento del oído humano, de tal forma que aunque los sonidos no son iguales se perciben como si lo fuesen.
Podemos comparar el sistema de compresión perceptual del sonido con los sistemas de compresión gráficos JPEG utilizados para codificar imágenes en cámaras fotográficas y en páginas Web. El formato JPEG se diferencia de otros como el BMP o TIFF porque no mantiene la imagen inalterada sino que realizan "aproximaciones" al original en pos de una mayor compresión que reduce el tamaño del archivo.
Sabemos que el sonido es una vibración (piense en una cuerda de guitarra). El número de vibraciones por segundo o ciclos por segundo se llama frecuencia. El oído distingue los sonidos por su frecuencia. Así, las frecuencias de las vibraciones, transmitidas al aire y recogidas por el oído a través del tímpano (membrana situada en el conducto auditivo), de una trompeta son distintas a las producidas por una batería o una guitarra. La unidad que mide la frecuencia es el ciclo por segundo c/seg. o Hertzio (en honor a Frank Hertz que descubrió las ondas de radio). El oído no es capaz de apreciar una vibración de cualquier frecuencia sino que tiene que estar comprendida dentro de un rango y también depende de la persona y de la edad. El cerebro de cada persona percibe además de forma sutilmente diferente las vibraciones recogidas en el oído a través del tímpano. El rango de frecuencias que percibe el oído humano está entre 20 Hz y 20 Khz (kilo hertzios), es decir entre 20 y 20000 Hertzios. Por lo tanto si un instrumento produce una vibración fuera de ese rango no será percibida por el oído humano. El rango indicado, como es lógico, no es el mismo para todo el mundo. Es difícil encontrar un oído que perciba una vibración de dieciocho o veinte mil Hertzios. Además la edad juega también un papel importante.
Una conversación normal se desarrolla a base de vibraciones producidas por las cuerdas bucales comprendidas entre 400 Hz y 3000 Hz.
El siguiente esquema muestra un diagrama que puede ser aclaratorio

Hay un efecto interesante que podemos aprovechar para reducir el tamaño de los archivos de audio. Se llama efecto enmascaramiento y se produce cuando hay un sonido con un volumen alto en una frecuencia y se superpone otro de un volumen más bajo en una frecuencia cercana. Cuando se produce esta situación, el segundo sonido queda tapado por el primero. Es inútil grabar ambos porque el oído humano no detecta el de volumen más bajo.
Por lo tanto de lo que se trata es de aprovechar los “defectos” del oído humano para desechar todo aquello que realmente no vamos a oír. Como cada uno tiene un oído diferente, se utilizan métodos estadísticos para que la pérdida no se aprecie por la mayoría de las personas.

Codificación de Sub-bandas

Para codificar en mp3 se utiliza un sistema denominado Codificación de Sub-bandas. El proceso consiste en descomponer la señal original en sub-bandas mediante un banco de filtros. Se comparan las sub-bandas con el original utilizando el modelo psicoacústico que determina qué bandas son importantes y cuales se pueden eliminar. El resultado, después de una compresión, es un archivo en formato mp3
El sistema permite introducir un parámetro llamado bitrate (número de bits por segundo que se graban) que determina si se eliminan más o menos datos siguiendo el modelo psicoacústico. Un bitrate alto obtiene más calidad pero archivos más grandes, así que hay que encontrar una solución de compromiso de tal forma, que la calidad sea suficiente y obtengamos archivos no demasiado grandes. Los datos se comprimen mediante un algoritmo llamado de Huffman.

Cantidades interesantes

Dentro del formato MP3 podemos comprimir con distinto ancho de banda, modo y bitrate obteniendo distintas calidades según para que vayamos a utilizar ese sonido.

La siguiente tabla del Instituto Tecnológico Fraunhofer puede ser de utilidad

Calidad del sonido Ancho de banda Modo Bitrate Ratio de compresión
Sonido telefónico
2,5 kHz
Mono
8 kbps
96:1
Mejor que onda corta
4.5 kHz
Mono
16 kbps
48:1
Mejor que radio AM
7.5 kHz
Mono
32 kbps
24:1
Similar a radio FM
11 kHz
Estéreo
56...64 kbps
26...24:1
Cercano al CD
15 kHz
Estéreo
96 kbps
16:1
CD
>15 kHz
Estéreo
112..128 kbps
14..12:1

Para grabar un disco compacto se muestrea la señal con una frecuencia de 44100 Hz y se utilizan 16 bits por muestra y en estéreo (dos canales). Eso equivale aproximadamente a 1400 Kbps (kilo bits por segundo) (44100 x 16 x 2 bits por segundo). Codificándolo por ejemplo a MP3 con bitrate de 128 kbps obtenemos una reducción en torno a un 1/12 del espacio inicial y excelente calidad. Teniendo en cuenta que un CD tiene unos 700 Mega Bytes de capacidad, se quedaría en unos 60 Mega Bytes
También se puede optar por comprimir con un bitrate mayor llegando a 192 o incluso 256 kbps. Pero el más popular es el de 128 kbps con el que se consigue una calidad excelente con una compresión sobresaliente.

Modos de lectura de un CD

Muchos programas permiten configurar diferentes modos de lectura de un CD. Es un factor a tener en cuenta es el proceso de lectura y grabación en el disco duro del ordenador.
Llamaremos CD_Audio a un CD-ROM que tiene grabada música. En un CD se graba digitalmente, es decir, a base de quemaduras producidas por un láser en la superficie del CD. Cada quemadura se considera un 1 y la ausencia de quemadura se considera un 0. De esa forma tenemos una serie numérica formada por ceros y unos que son reflejo de la información que se quiso alamcenar ya sea música, video o cualquier tipo de datos. Sin embargo, la forma de almacenar música en un CD (CD-Audio) es muy diferente a como se almacenan de datos en un CD-Rom o en un disco duro. Los CD-Audio están pensados para una reproducción secuencial continua, por lo tanto los datos se almacenan sin ningún tipo de "índice" (sectores, clusters o unidad mínima de grabación formada por varios sectores contiguos, etc...). Si el láser del lector se para en una determinada posición, no es seguro que al continuar parta exactamente de la misma posición porque no se pudo tomar nota de la posición de la parada. Debido a esto aparecen los temidos "pops" o chasquidos metálicos que indican una lectura defectuosa.

Podemos citar tres modos de lectura:
• Normal: Lectura y escritura alternativamente.
• Burst o Power Mode: Lectura y escritura simultáneamente. Es el más rápido.
• Sincronización de Sectores, Jitter o Overlaping: Se hacen lecturas solapadas de manera que se suprimen los posibles saltos. Es el método más lento pero es el más seguro.

Por lo tanto, si el programa lo permite, para evitar fallos en la lectura de un CD-Audio, hay que configurarla para esa lectura sea por sincronización de sectores. No importa que sea el método más lento si aseguramos una mayor calidad en la lectura.