Recuerdo que, de niño, era casi un tópico a principio de curso el que algún compañero de clase examinase los libros recién comprados y se quejase de las pocas ilustraciones que tenían. Un libro era «difícil» de estudiar si tenía pocas ilustraciones y las lecciones eran «cortas» si incluían varias imágenes que hiciesen que la cantidad de texto de la lección disminuyera. El debate sobre si una imagen «valía más que mil palabras» estaba inmediatamente servido.
Los matemáticos, en cambio, son gente seria y suelen buscar respuestas rigurosas incluso a preguntas tan, aparentemente, irresolubles. En 1948 Claude Shannon escribió un artículo titulado «A Mathematical Theory of Communication» que, en cierto modo, habría dejado sin sentido muchas de nuestras discusiones infantiles sobre el «valor» de imágenes y palabras.
El artículo de Shannon fue la piedra inaugural de lo que ahora se llama Teoría de la Información, la cual es una rama de la teoría matemática de la probabilidad y la estadística que estudia la información y, por supuesto, la cuantificación de la misma. Gracias a Claude Shannon podemos hoy 🙂 resolver con facilidad la cuestión de cuanta información hay contenida en una imagen o en mil palabras.
Para poder responder a esa pregunta es preciso, en primer lugar, definir una medida de la información. Démosla pues:
Sea E un suceso que puede presentarse con una probabilidad P(E). Cuando E tiene lugar decimos que hemos recibido
unidades de información.
El nombre de la unidad de medida dependerá de la base del logaritmo, si el logaritmo está en base «e» la unidad de medida se llamará «nat» pero, si está en base dos, entonces estaremos ante nuestro muy conocido amigo el «bit». Así pues, el bit no es unidad de peso ni de capacidad ni de longitud: el bit es una unidad de medida de la información y aprovechándonos de él podemos resolver la cuestión planteada: ¿Qué contiene más información una imagen o mil palabras?.
Consideremos que la imagen a que hacemos referencia es una imagen de televisión en blanco y negro; la misma puede considerarse formada por una estructura de puntos negros, blancos y grises dispuestos en 500 filas y 600 columnas aproximadamente. Si cada uno de esos 300.000 puntos puede adoptar diez tonalidades de gris, el número de posibles imágenes distintas alcanza a 10 elevado a 300.000. Si todas son igualmente probables la cantidad de información contenida en una imagen es, más o menos, 10 elevado a 6 bits.
Veamos ahora cuanta información se contiene en 1000 palabras. Si el hablante tiene un vocabulario de 10.000 palabras (es una suposición) y ha elegido entre ellas 1000 completamente al azar la cantidad de información contenida en ellas es igual a 1,3 por 10 elevado a cuatro bits. Así pues una imagen de televisión en blanco y negro como la expuesta equivale a unas 100 palabras.
El tamaño de los ficheros informáticos ha dejado sin sentido el debate infantil. Solo con mirar el tamaño en bites, kilobites o gigabites de de los ficheros informáticos, ya sean de texto o de video o de cualquier otra cosa, podemos expresar con toda exactitud la cantidad de información contenida en ellos :-). Por eso personas como Martin Varsavsky pueden reflexionar sobre la «ineficiencia» del texto escrito a la hora de transmitir información ya que nos cuesta unas treinta horas leer un libro de pocos megas de información mientras que en hora y media hemos podido ver una película de más de un Giga.
En realidad, me dirían mis compañeros de clase infantil, esa teoría no resuelve la cuestión pues nosotros hablábamos del «valor», no de la «cantidad» de la información… y es verdad, pero esa es otra historia y otro post.