Cómo se digitaliza el sonido: audio, representación, imagen
Para reproducir sonido en un equipo informático debe convertirse a un formato digital, ya que este es el único tipo de información con el que pueden trabajar los ordenadores.
¿Qué es el sonido?
Los sonidos son vibraciones del aire, es decir, una serie de presiones ascendentes y descendentes en el aire con respecto a una media, la presión atmosférica. Para probar esto, podemos colocar algo que suene alto (como un reloj despertador) dentro de una cámara al vacío: notaremos que, al no estar rodeado de aire, el objeto ya no hace ruido. La manera más simple de crear un sonido es hacer que un objeto vibre. De esta manera, un violín suena cuando el arco hace vibrar las cuerdas, y un piano toca una nota cuando se presiona una tecla, ya que el percutor golpea una cuerda y hace que esta vibre.
Por lo general, se utilizan altavoces para reproducir estos sonidos. Los altavoces se componen de una membrana conectada a un electroimán; cuando una corriente eléctrica pasa rápidamente por delante y por detrás del imán, causa vibraciones en el aire que lo rodea, ¡y la vibración es sonido!
De esta forma se producen las ondas sonoras, que se pueden representar en un diagrama como cambios en la presión de aire (o en el nivel de electricidad del imán) con relación al tiempo. Obtenemos la siguiente representación:
Este tipo de representación del sonido se denomina modulación de amplitud (modulación de la amplitud de un sonido a lo largo del tiempo). Un sonograma, por otro lado, representa las frecuencias de sonido en función del tiempo. Se debe observar que el sonograma muestra una frecuencia fundamental, por encima de la cual las frecuencias más altas (denominadas armónicas) se superponen.
Esto es lo que nos permite distinguir entre diferentes fuentes de sonido: los sonidos bajos tienen frecuencias bajas, mientras que los sonidos altos tienen frecuencias altas.
¿Qué es el muestreo de sonido?
Se trata de anotar pequeñas muestras de sonido (lo que equivale a anotar diferencias de presión) a intervalos temporales específicos. Esto se denomina muestreo o digitalización del sonido. El período de tiempo entre dos muestras se denomina índice de muestreo. Para reproducir sonidos de audio que se escuchen de forma continua se requieren muestras que suenen al menos una vez cada cienmilésima de segundo; por esto, resulta más práctico basarse en el número de muestras por segundos, expresadas en Hertz (Hz). A continuación hay algunos ejemplos de los índices de muestreo más comunes, y de calidades de sonido asociadas:
Índice de muestreo | Calidad de sonido |
---|---|
44.100 Hz | Calidad de CD |
22.000 Hz | Calidad de radio |
8.000 Hz | Calidad de teléfono |
El índice de muestreo de un CD de audio, por ejemplo, no es arbitrario. De hecho, proviene del teorema de Shannon. La frecuencia de muestreo debe ser lo suficientemente alta como para preservar la forma de la señal. El teorema de Nyquist -Shannon estipula que el índice de muestreo debe ser igual o mayor al doble de la frecuencia máxima contenida en la señal. Nuestros oídos pueden escuchar sonidos hasta 20.000 Hz aproximadamente. Por lo tanto, para obtener un nivel de calidad de sonido satisfactorio, el índice de muestreo debe estar, al menos, en el orden de los 40.000 Hz. Se utilizan diversos índices estandarizados de muestreo:
- 32 kHz: para radios FM digitales (limitadas a una banda de 15 kHz).
- 44,1 kHz: para audio profesional y discos compactos.
- 48 kHz: para la grabación de pistas digitales grabadas por separado y equipos de grabación de consumo (como DAT o MiniDisc).
¿Cómo es la representación informática del sonido?
Cada muestra (que corresponde a un intervalo de tiempo) está asociada a un valor, que determina el valor de la presión de aire en ese momento. Por lo tanto, el sonido no se representa como una curva continua con variaciones, sino como una serie de valores para cada intervalo de tiempo:
Un ordenador trabaja con bits, por lo que se debe determinar el número posible de valores que puede tener una muestra. Esto equivale a establecer el número de bits con base en el cual se codifican los valores de la muestra.
- Con una codificación de 8 bits, hay 28 (= 256) valores posibles.
- Con una codificación de 16 bits, hay 216 (= 65536) valores posibles.
La segunda opción ofrece claramente una fidelidad de sonido mayor, pero utiliza más memoria del equipo.
Finalmente, el sonido estéreo requiere dos canales, con sonido grabado individualmente para cada uno de ellos. Un canal alimentará el altavoz izquierdo, en tanto que el otro se transmitirá por el parlante derecho.
En el procesamiento informático, un sonido se representa por diversos parámetros:
- El índice de muestreo
- El número de bits de una muestra
- El número de canales (uno para mono, dos para estéreo, y cuatro para sonido cuadrofónico)
¿Cuál es la memoria requerida para almacenar un archivo de sonido?
Es fácil calcular el tamaño de una secuencia de audio no comprimida. Conociendo cuántos bits se utilizan para codificar una muestra, se puede saber su tamaño (ya que el tamaño de la muestra es el número de bits). Para averiguar el tamaño de un canal, todo lo que necesita saber es el índice de muestreo (y, por lo tanto, el número de muestras por segundo) y, partir de ahí, la cantidad de espacio que ocupa un segundo de música. Llegamos a la siguiente operación:
- Índice de muestreo x Número de bits
En consecuencia, para averiguar cuánto espacio ocupa un extracto de sonido que dura varios segundos, sólo se debe multiplicar el valor precedente por el número de segundos:
- Índice de muestreo x Número de bits x Número de segundos
Finalmente, para determinar el tamaño real del extracto, se debe multiplicar la cifra anterior por el número de canales (será el doble de grande para sonido estéreo que para mono). Por lo tanto, el tamaño en bits de un extracto de sonido será igual a:
- Índice de muestreo x Número de bits x Número de segundos x Número de canales