La famosa ilusión óptica del pato y el conejo, cómo la interpreta una inteligencia artificial y qué consecuencias tiene eso

La famosa ilusión óptica del pato y el conejo, cómo la interpreta una inteligencia artificial y qué consecuencias tiene eso
1 comentario Facebook Twitter Flipboard E-mail

Hace 127 años, un revista satírica alemana publicaba la ilustración de arriba acompañada del siguiente chiste: "¿Qué animales se parecen más entre sí? El pato y el conejo". Es una de las ilusiones ópticas más famosas de la historia: resulta inevitable ver primero una de las dos especies y caer luego en la cuenta de la otra perspectiva.

El famoso filósofo Ludwig Wittgenstein llegaría a utilizar la imagen para ilustrar su reflexión sobre el perspectivismo: sostiene que si vemos esa figura "como un conejo" o "como un pato" es porque somos capaces de transitar entre diferentes aspectos de lo que vemos, y variando nuestras percepciones de la imagen sin que ésta varíe o se mueva.

Wittgenstein explica que esto se debe porque lo que 'vemos' no tiene sólo una naturaleza visual, también mental (bueno, su explicación es algo más compleja, pero quedémonos con esta simplificación).

Pero, ¿por qué hablar ahora de esta imagen? Por un pequeño experimento realizado por Max Woolf, 'data scientist' de BuzzFeed, quien tuvo la idea de utilizar Google Cloud Vision para analizar la histórica imagen del pato y el conejo.

Google Cloud Vision es una API online utilizada para realizar tareas de extracción de "información valiosa a partir de imágenes", ya sea recurriendo a modelos pre-entrenados o permitiendo entrenar "modelos de visión personalizados de forma sencilla con AutoML Vision".

Pero... ¿cuál fue el resultado del experimento? El propio Woolf lo ha subido a Twitter. Mira:

Una animación que esconde muchas cosas

Lo primero que llama la atención es cómo va cambiando la identificación de la figura según ésta rota. Este detalle, que podría no pasar de la mera curiosidad, ha generado un encendido debate entre los aficionados a la tecnología.

En Hacker News, por ejemplo, se han expuesto los siguientes puntos de vista:

"— Me sorprenden bastante los comentarios porque nadie parece ver el significado de esto: Sí, la imagen es ambigua; pero el asunto es que Google Cloud Vision da una respuesta inequívoca de esa imagen basada en la rotación. Las transformaciones de una imagen se utilizan habitualmente para mejorar los resultados del reconocimiento de imágenes. Pero ese proceso falla de manera dramática si en el curso de una transformación el sistema proporciona una respuesta más rotunda de lo que debería".

"— Me alegro de que alguien vea el problema, pero no me sorprende la reacción típica de los apologistas de la inteligencia artificial".

"— ¿Alguien puede explicar por qué esto es un problema? No soy ningún apologista, pero creo que es bueno que la IA vea la ilustración como un consejo cuando se encuentra 'orientada como un consejo' y un pato cuando se 'encuentra en posición de pato"".

"— En el mundo real, uno no desea que una inteligencia artificial cambie instantáneamente del 90% de confianza en un sentido al 90% en sentido contrario, ya que podría causar un comportamiento errático. Lo preferible sería un terreno amplio en el que se otorgara a ambas opciones una puntuación del 45%, y aplicar después un razonamiento basado en la probabilidad para optar por una de ellas".

Otros usuarios alegan que no ven el problema, puesto que al cerebro humano le ocurre lo mismo que a Google Cloud Vision ("Si a mí me lo mostraras desde el lado en que parece un conejo, también te diría que parece un conejo")... pero ante eso otros responden que el cerebro humano sólo caería en ese error una vez, y que a medida que siguiera rotando debería ser capaz de recordar la existencia de las dos posibilidades.

Todo esto tiene, claro está, ramificaciones que afectan a otras tecnologías en las que el reconocimiento de imágenes tienen un gran peso, como la conducción autónoma (o las armas inteligentes).

Inicio