LoginRSS 2.0 Feed

viernes, 06 de junio de 2008

Un equipo liderado por Antonio Torralba, profesor asistente en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, ha descubierto que con solo unos pocos píxeles de información podemos ser capaces de identificar el sujeto de una imagen. Este descubrimiento puede llevar a grandes avances en la identificación automática de imágenes online y, en última instancia, proveer las bases para conseguir que las computadoras puedan ver como lo hacen los humanos.

Antonio Torralba y su equipo llevan tiempo tratando de descubrir cuál es la menor cantidad de información  que puede ser extraída de una imagen y que provea una indicación util de su contenido. Conseguir una representación tan corta es un importante paso en el caminio hacia la catalogación automática de los billones de imágenes que existen en Internet. Actualmente, la forma común de buscar las imágenes se basa en los fragmentos de texto que la gente ha asignado a cada imagen, o en el entorno del texto que se encuentre cercano a la misma. La identificación automática también proveerá una manera para indexar las imágenes que la gente se descarga de las cámaras digitales a sus computadoras, sin tener que introducir de forma manual los textos asociados a las imágenes.

Torralba explica que "estamos tratando de encontrar la representación más corta para las imágenes, de forma que si dos imágenes tienen una secuencia similar [de números], serán probablemente similares". Si una imagen ha sido etiquetada de forma manual, entonces otras imágenes parecidas podrán "heredar" esa descripción. Torralba asegura que "con grandes cantidades de imágenes, incluso los algoritmos más simples con capaces de funcionar bastante bien a la hora de identificar imágenes". Torralba presentará sus últimos descubrimientos durante el mes de Junio en Alaska, en una conferencia de visión por computador y reconocimiento de patrones. El trabajo de Torralba ha sido realizado en colaboración con Rob Fergus del Courant Institute de la New York University y Yair Weiss de la Universidad Hebrea en Jerusalén.

Para conocer cuál es la menor cantidad de información necesaria para que la gente sea capaz de reconocer el sujeto de una imagen, Torralba y sus colegas probaron el reducir las imágenes a resoluciones cada vez menores y fueron comprobando cuántas imágenes podía reconocer la gente para cada nivel de resolución. "Somos capaces de reconocer lo que hay en las imágenes incluso con resoluciones muy bajas, porque sabemos mucho acerca de imágenes", apunta Torralba. "La cantidad de información que necesitas para reconocer la mayoría de las imágenes es de 32 por 32", sin embargo, incluso las imágenes "thumbnail" que muestra Google en las búsquedas de imágenes son de 100 por 100.

Utilizando el sistema de codificación propuesto por Torralba, han sido capaces de representar 12.9 millones de imágenes extraídas de internet con solo 600 megabytes, una cantidad más que aceptable para mantenerla en memoria RAM en la mayoría de los PCs actuales.


[José Carlos Cortizo Pérez]

11:08 | gestionado por Grupo de Sistemas Inteligentes - UEM | Enviar comentario (7)