Posteamelo

MP3 vs FLAC: la batalla definitiva (y más)

Introducción

¡Hola taringueros! Acá les traigo mi nuevo post. Probablemente muchos (casi seguro que todos) ya estén cansado de leer posts de esta clase: audio lossy vs audio lossless , pero más allá de algunos explicativos y justificaciones breves se concluye que los formatos lossless (como WAV , AIFF y FLAC ) son mejores porque mantienen la integridad completa del archivo de audio, no alteran ninguna característica del original conservando toda la información. Los defensores de los formatos lossy (como MP3 , AAC y OGG ) dicen que si la codificación es buena, la pérdida de información (que en el audio se aprecia como pérdida de calidad) es mínima e imperceptible para el oído humano. La misma confrontación sucede con los CD y los vinilos : soporte analógico vs soporte digital , pero no me voy a poner de hablar de eso ahora (quizás en un furuto post, porque el tema pinta lindo).

Lo que pretendo en este post es volcarles toda esta información de modo consistente, de una forma que nunca antes nadie lo explicó (o al menos yo no lo vi) para que finalmente desterremos mitos y concluyamos si los formatos lossy valen o no la pena y apreciar qué es lo que se pierde cuando se codifica a los formatos lossy más populares.

¡Arranquemos nomás!

¿Qué método vamos a usar?

El método que vamos a usar se llama inversión de fase . Seguro que muchos la conocen y se dieron cuenta de cómo la voy a utilizar a lo largo del post, probablemente otros sepan lo que es pero no saben cómo voy a sacar provecho de esta técnica y la gran mayoría seguro es la primera vez que escucha el término; pero los dos últimos que no se preocupen que les voy a explicar con detalle y con un ejemplo bien simple qué es la inversión de fase y cómo la vamos a aplicar en esta batalla final entre lossless y lossy.

Supongamos que tenemos una onda sinusoide simple, un tono puro y uniforme, como el tono del teléfono antes de marcar. Si generamos (o abrimos un archivo con) una onda sinusoide en algún editor de audio , la waveform se vería más o menos así:

Waveform de una onda sinusoide de 60 Hz . en Sound Forge. Tamaño completo: click acá .

Para poder explicar bien y que se vea cómo es el tema de la inversión de fase, vamos a necesitar ampliar un poco la imagen para que la onda no esté tan "apretada" y podamos distinguir más fácilmente alguna de sus partes:

Waveform de la misma onda anterior, ampliada. Tamaño completo: click acá .

Hablemos un poquito de esta onda (espero no se aburran, pero es fundamental para entender qué es la inversión de fase). Partiendo desde la izquierda de la imagen, vemos que la onda comienza desde la línea de equilibrio y sube hasta llegar a un máximo. Luego comienza a bajar, atraviesa nuevamente la línea de equilibrio y llega hasta un mínimo. Finalmente vuelve a subir y llega otra vez a la línea de equilibrio. Esto se repite nueve veces y media en la imagen ampliada y determina el ciclo de la onda .

Lo que nos interesa de esto es conocer e identificar que cada vez que la onda llega a un punto máximo se forma un pico o cresta, y cada vez que llega a un punto mínimo describe un valle. Además es importante destacar que, en este caso, la onda es idéntica porque se trata de una sinusoide simple, por lo tanto cada pico y cada valle tienen la misma potencia (en física se lo llama amplitud ) pero con distinta polaridad, ya que una va hacia arriba y la otra va hacia abajo. Es como decir, por ejemplo, que el -3 y el +3 tienen el mismo valor absoluto (o sea, 3) pero tienen distinto signo. Si esto lo traducimos al sonido, los picos comprimen el aire y los valles lo descomprimen (imagínense un bombo siendo golpeado en cámara lenta: el parche vibra subiendo y bajando, comprimiendo y descomprimiendo el aire que se encuentra por encima y debajo del parche, generando el sonido).

Ahora a uno de esos canales (el de abajo) vamos a aplicarle el proceso de inversión de fase. Luego de la inversión, la waveform se ve así:

Waveform de la misma onda anterior, con una fase invertida. Tamaño completo: click acá .

Fíjense que la onda ahora sigue siendo igual pero como si estuviese reflejada en un espejo: las crestas ahora son valles y los valles ahora son crestas. ¿Qué consecuencias trae esto al sonido? Recordemos que en la sinusoide original los dos canales eran idénticos y cada valle y cresta coincidían y tenían la misma potencia, pero ahora como se invirtió la fase en una de ellas no coincide valle con valle o cresta con cresta, sino que coinciden valle con cresta y cresta con valle.

Miren lo que sucede cuando mezclamos los canales:

La waveform desapareció por supresión a causa de la inversión de fase. Tamaño completo: click acá .

No es brujería ni mucho menos, la cosa es bastante fácil de entender: como las crestas y los valles tienen el mismo valor pero invertido, al combinarse se suprimen, convirtiéndose en silencio. Con el ejemplo que dimos recién, si sumamos +3 y -3 el resultado es cero (matemáticamente: (+3) + (-3) = 0). Esta técnica es usada por muchos auriculares modernos profesionales para aislar el sonido indeseado del exterior: el auricular tiene un micrófono que capta el sonido externo y genera una fase invertida para ese sonido, suprimiéndolo, de modo tal que el oyente escuche sólo la música y no el ruido externo. Si te querés comprar unos auriculares así, esa característica se llama cancelación activa .

¿Cómo vamos a usar la inversión de fase?

Como ya sabemos, cuando un audio lossless es convertido a lossy se pierde información. Al perderse información la waveform cambia y si aplicamos la inversión de fase entre el audio lossless y el audio lossy va a quedar no un silencio porque la onda cambió (los valles y las crestas ya no coinciden perfectamente), sino que va a quedar un sonido remanente que va a ser exactamente lo que se perdió en la conversión.

En la teoría suena muy lógico, pero en la práctica ¿qué tanto se pierde? ¿es apreciable o muy importante ese remanente? Esas respuestas vamos a responderlas aplicandotodo lo recién explicado con un ejemplos prácticos.

Para los ejemplos usé un fragmento de una canción de la que soy coproductor, convertida a tres de los formatos lossy más populares: MP3, AAC y OGG, codificados en máxima calidad y en CBR (salvo en uno de los casos). Para todas las conversiones usé Switch , un excelente programa que recomiendo muchísimo porque codifica muy bien.

La canción lossless en FLAC (usar más de un formato lossless sería inútil, ya que todos conservan la totalidad de la información) es la siguiente (ya se que en YouTube no es lo mismo, pero se van a dar una idea de cómo es la canción para compararlo con las demás conversiones).

¡Ah! Casi me olvidaba. Mientras escuchen la canción modifiquen el volumen hasta escuchar la pista claramente y en detalle, sin aturdirse y sin escucharlo bajo, y no lo muevan hasta el final del post, de ese modo podemos hacer una comparación relativa entre la pista original y los remanentes. Aunque se tienten a subir el volumen no lo hagan, yo les voy a facilitar las pistas normalizadas .

Además de la canción les dejo la waveform (que ya se ve en la miniatura del video, pero fea) y el espectrograma para que puedan comparar cómo cambia más adelante:

Waveform del fragmento de la canción en FLAC. Tamaño completo: click acá .

Espectrograma de la canción en FLAC. Tamaño completo: click acá .

Si quieren saber más sobre cómo interpretar el espectrograma y conocer con él la calidad de los archivos de audio, aprovecho para invitarlos a que pasen por que hice hace un par de años y que ha servido a mucha gente.

MP3

El primer paso es convertir el audio de FLAC a MP3. Como les conté lo codifiqué a la máxima calidad: 320 kbps, CBR estéreo unido . Probé usar VBR pero obtuve los mismos resultados. También intenté con otros modos de codificación de canal (estéreo, fuerza) pero la calidad era levemente menor. Luego de la conversión así se veía el audio (no pongo video por la limitación de YouTube anteriomente mencionada):

Waveform del fragmento de la canción en MP3. Tamaño completo: click acá .

Espectrograma de la canción en MP3. Tamaño completo: click acá .

¿Querés compararlos con los del FLAC? Tranquilo, también pensé en eso:

Comparación de la waveform: FLAC - MP3. Tamaño completo: click acá .

Comparación de espectrogramas: FLAC - MP3. Tamaño completo: click acá .

Como podemos ver el audio cambió. Conserva gran parte de sus características pero ya no es el mismo (como Taringa!, ya no es la que era). Ahora vamos a aplicar la inversión de fase para ver qué tanto cambió y escuchar cuánto se perdió con la conversión.

Para comenzar, en el el editor de audio (Sound Forge en mi caso) creamos 4 canales y pegamos los audios en ellos: arriba, ocupando el primer y segundo canal, el archivo FLAC; debajo, ocupando el tercer y cuarto canal, el MP3:

FLAC y MP3 en el editor de audio. Tamaño completo: click acá .

El siguiente paso es hacer zoom y ya van a ver por qué:

Ampliación de las waveform: FLAC - MP3. Tamaño completo: click acá .

Como vemos las waveform no coinciden. Esto se debe a que en la codificación al MP3 se le agrega un silencio al inicio y por eso queda desalineado. Entonces ampliamos más, seleccionamos y borramos más o menos ese inicio con silencio, cuidándonos de no eliminar el audio:

Ampliación mayor de las waveform: FLAC - MP3. Tamaño completo: click acá .

Para que funcione la fase inversa las waveform debe estar perfectamente alineadas, ni siquiera un milisegundo más o un milisegundo menos, por lo que ampliamos más aún las waveforms hasta ver las muestras , seleccionamos lo que falta borrar guiándonos con algunos picos o valles, vamos al inicio y terminamos de borrar el silencio agregado por la codificación:

Selección de lo que falta borrar usando como referencia un pico (cursor). Tamaño completo: click acá .

Luego de borrar, y con el zoom todavía en máximo, comprobamos que todo coincida perfectamente. Para eso también nos guiamos con los valles y las crestas:

Comprobación de que está bien alineado (cursor). Tamaño completo: click acá .

Ahora sí, invertimos las fases del canal 3 y 4 (las correspondientes al MP3):

Las fases del MP3 ya están invertidas. Tamaño completo: click acá .

La waveform completa se ve así:

Waveform completa: los canales 3 y 4 con la fase invertida. Tamaño completo: click acá .

Finalmente, al mezclarlas obtenemos el siguiente resultado:

Audio remanente entre FLAC - MP3. Tamaño completo: click acá .

Como se puede observar y como era de esperar, la fase invertida del MP3 no suprimió completamente al FLAC y quedó la información que se eliminó con la conversión. Si lo normalizamos se ve así:

Lo mismo que el anterior, normalizado. Tamaño completo: click acá .

Acá se aprecia que la waveform del audio remanente es muy parecida a la waveform original. Esto indica que las frecuencias que perdió el MP3 respeta a todas las frecuencias del FLAC original. Con esto confirmamos y reafirmamos que cuando se convierte un formato lossless a MP3 todo el espectro se ve afectado y no solamente las frecuencias más altas como la mayoría piensa. Esta es un dato de gran importancia para considerar los formatos lossless ante el MP3. Esto se puede apreciar claramente si vemos el espectrograma de ese audio remanente:

Espectrograma del audio remanente. Todas las frecuencias son afectadas. Tamaño completo: click acá .

Ahora, la prueba definitiva: ¿cómo se escucha ese remanente? Recordá de no subir el volumen para comparar cuánto del volumen se perdió respecto al original del FLAC. Además, después te pongo el normalizado para que escuches más fuerte y con detalle la información perdida. Te sugiero que primero escuches otra vez el audio del FLAC, sobre todo si por algún motivo modificaste el volumen o por si no te acordás cómo era la melodía.

Como se puede apreciar, la ganancia (volumen) perdido es bastante, eso quiere decir que la waveform se eliminó y modificó poco, pero no deja de ser claramente apreciable al mismo volumen que el FLAC, sin necesidad de subir el volumen. También hay que destacar que, una vez más, no sólo las frecuencias agudas son las que se escuchan, sino todas, ya que se pueden apreciar todos los componentes de la canción, aunque las frecuencias del hi-hat son las que predominan (o sea, las que más fueron reducidas y modificadas en la codificación a MP3).

De este modo terminamos con los experimentos en el formato MP3, concluyendo que dentro de todo está bien pero la calidad que se pierde es apreciable al oído, y más todavía si se lo reproduce en dispositivos de alta fidelidad o con auriculares de buena calidad, donde los detalles se perciben perfectamente, y la pérdida con la codificación del MP3, también.

Pasemos ahora a analizar otro formato lossy popular, el AAC.

AAC

En el caso de AAC usé el contenedor M4A , que es indistinto porque el codec es el mismo. La codificación la realicé con la máxima calidad (500 kbps) pero esta vez en VBR, que me dio mejores resultados que la codificación en CBR. Así se veía después de la conversión:

Waveform del fragmento de la canción en M4A. Tamaño completo: click acá .

Espectrograma del fragmento de la canción en M4A. Tamaño completo: click acá .

En formato GIF para comparar:

Comparación de la waveform: FLAC - M4A. Tamaño completo: click acá .

Comparación de espectrogramas: FLAC - M4A. Tamaño completo: click acá .

De modo similar al MP3, el AAC presenta diferencias aparentemente mayores, al menos en la waveform. Veamos ahora qué sucede si aplicamos la inversión de fase:

Audio remanente entre FLAC - M4A. Tamaño completo: click acá .

Lo mismo que el anterior, normalizado. Tamaño completo: click acá .

Comparado con el MP3, el remanente acá es mayor, lo que quiere decir que más material y calidad se perdieron durante la conversión. Así se ve en el espectrograma:

Espectrograma del audio remanente. Tamaño completo: click acá .

Claramente hay una mayor eliminación y modificación de frecuencias, pero algunas se ven mucho más afectadas que las otras en contraste con el MP3, donde es más balanceado. Vamos con el veredicto final, el cómo se escucha. Recordá lo de no tocar el volumen y, si es necesario, escuchá una vez más el original en FLAC.

Como podemos apreciar, no es demasiado bueno. La canción se distingue bastante, por lo que la información eliminada y modificada en la codificación fue mucha. No recomiendo usar este formato; yo lo usaba muchísimo pensando que era mejor que el MP3 pero acá queda evidenciado que no lo es. La verdad los que desarrollaron este códec no se qué pretendieron lograr eliminando más frecuencias en esos puntos del espectrograma. Pasemos a OGG ahora.

OGG

OGG es un contenedor del codec Vorbis . Se lo considera el hermano menor de FLAC, ya que ambos están apoyados por la Fundación Xiph.Org . Acá también usé la codificación con la más alta calidad (nivel 10 en CBR). Después de la conversión la waveform lucía así:

Waveform del fragmento de la canción en OGG. Tamaño completo: click acá .

Espectrograma del fragmento de la canción en OGG. Tamaño completo: click acá .

GIF con la comparación de ambos, igual que los anteriores:

Comparación de la waveform: FLAC - OGG. Tamaño completo: click acá .

Comparación de espectrogramas: FLAC - OGG. Tamaño completo: click acá .

A diferencia de los anteriores, tanto la waveform como el espectrograma muestran cambios mínimos. En el caso de la waveform, sólo algunos pocos picos no coinciden, el cambio es tan pequeño que hay que prestar especial atención para notarlo. En el caso del espectrograma se ve que sólo se eliminan las frecuencias más altas (por encima de los 20KHz) y que ninguna frecuencia por debajo de ese valor se ve alterada: esto es un muy buen indicio de calidad y fidelidad. Analicemos ahora qué es lo que sucede cuando aplicamos la inversión de fase:

Audio remanente entre FLAC - OGG. Tamaño completo: click acá .

Lo mismo que el anterior, normalizado. Tamaño completo: click acá .

Como era de esperar el remanente es mínimo, se conservó casi toda la información y la calidad de la pista original. Pese a que el audio normalizado muestra una clara definición de los picos como los demás, hay que tener en cuenta que el volumen es mucho menor comparado con el MP3 y M4A y eso importa mucho. Analicemos, finalmente, el espectrograma:

Espectrograma del audio remanente. Tamaño completo: click acá .

Definitivamente queda confirmada que la eliminación y modificación de frecuencias es bastante menor que los formatos anteriores: apenas se ve verde, casi todo es azul. La eliminación y modificación de frecuencias se observa en las más superiores (por encima de 20KHz como habíamos dicho) y algunas por debajo de los 2KHz. También es notable mencionar que el grupo de frecuencias de los agudos casi no se vio afectado, por lo que todo el brillo de la pista se conservó íntegramente. Vamos a ver cómo se escucha. Te recuerdo una vez más el tema del volumen.

Podemos ver que OGG hizo un muy buen trabajo. El remanente casi no se escucha con el volumen que mantuvimos de referencia, y el normalizado es casi ilegible: lo que mayormente se escucha es puro ruido o artefactos que se produjeron con la conversión. Evidentemente es hasta ahora el mejor formato lossy disponible.

Conclusiones

● Los audios lossy pierden calidad y esa pérdida sí es apreciable al oído humano, incluso en las codificaciones más altas de calidad, ya que no sólo se eliminan las frecuencias altas inaudibles, sino que también se altera todo el espectro. La percepción de estos detalles está condicionada por el hardware que se utilice para la reproducción del sonido y la salud del oído del oyente.

● En sus codificaciones más altas (máxima calidad), OGG es mejor que MP3 y MP3 mejor que AAC, quedando éste en último lugar. Por lo tanto OGG > MP3 > AAC. Obviamente FLAC y los demás formatos lossless son mejores que cualquier lossy.

● Cuanto mayor es la calidad (considerando OGG > MP3 > AAC) mayor es el peso del archivo. Parece algo obvio, pero no lo es; no importa cuál sea el códec: cuanto más fielmente se intente codificar un audio lossless a lossy más espacio en disco va a ocupar. Esto quiere decir que hay un límite requerido y completamente necesario de información para representar una onda de audio, independientemente del códec. Un lossy nunca se va a parecer a un lossless en cuanto a la relación tamaño del archivo/fidelidad (va a llegar un punto en el que conviene directamente usar lossless porque su peso ya sería prácticamente el mismo) y es por eso que existen los lossy (para ahorrar espacio con el sacrificio que conlleva).

● Para terminar, ¿valen la pena los formatos lossy? La respuesta es que sí. Si tenés que poner tu música en un dispositivo portable con capacidad limitada, utilizá OGG en la máxima calidad que puedas, y si no lo soporta usá MP3. Para almacenar tu música en tu PC, backup, DVD o el soporte definitivo que utilices, siempre hacelo en formato lossless. FLAC es una excelente opción ante otros formatos por varios motivos, entre ellos la rápida codificación y decodificación, soporte por la gran mayoría de software, sistemas operativos y últimamente dispositivos móviles, soporte de etiquetas, y por sobre todas las cosas, libre.
¡Ah! Ni se te ocurra convertir un lossy en lossless (por ejemplo, MP3 a FLAC). La información ya se perdió cuando se codificó a MP3 y esa información es irrecupreable. Este es uno de los mayores errores que cometen los que incursionan en el mundo lossless y no tiene completamente ningún sentido.

Bueno, se me hizo extenso el post, pero está bastante completo a mi parecer. Espero lo valoren porque me costó varios días armar todo (todo el post es completamente propio) a tal punto que este es el mejor post que hice en Taringa!
Nos vemos en un futuro post, que seguramente va a tener mucho que ver con éste. ¡Hasta luego!

MP3 vs FLAC: la batalla definitiva (y más)

Dejá tu comentario

Autor del Post