Enviado el martes, 31 de marzo de 2009 5:54
Hay que reconocerlo, la mayoría de los artículos científicos son realmente aburridos y resultan demasiado complejos de leer. Lo peor de todo es tener que leer páginas y páginas para extraer apenas 1 o 2 conceptos que, con suerte, resultan realmente nuevos. Así pues, cuando te encuentras con un artículo como "
The Unreasonable Effectiveness of Data", de Alon Halevy, Peter Norving y Fernando Pereira (los 3 de Google), te enamoras a la primera leída, incluso cuándo contradice casi todo lo que has estado haciendo en los últimos años.
Aquí os traduzco el abstract del artículo para ver si sirve para animar a alguno a leerlo por completo. Son solamente 5 páginas muy bien escritas y que hace un especial hincapié en dejar que los datos hablen solo, utilizando datos no etiquetados y modelos no paramétricos.
El artículo de Eugene Wigner, "The Unreasonable Effectiveness of Mathematics in the Natural Sciences" examina el por qué gran parte de la Física puede ser explicada con fórmulas matemáticas simples como f = ma o e = mc2. Mientras, las ciencias que tienen que ver con los seres humanos, en lugar de partículas elementales, son más resistentes al uso de matemáticas elegantes. Los economistas envidian a los físicos por su incapacidad de modelar el comportamiento humano. Una gramática informal e incompleta del Inglés contiene sobre 1.700 páginas. Quizás, cuando tratamos con el procesamiento del lenguaje natural y campos relacionados, nos encontramos desbordados con complejas teorías que nunca tendrán la elegancia de las ecuaciones físicas. Pero si es así, debemos parar de actuar como si nuestro objetivo fuera crear teorías extremadamente elegantes, y en lugar de ello, ir de la mano de la complejidad, y hacer uso del mejor aliado que tenemos: la irracional efectividad de los datos.
Uno de nosotros, como licenciacio en la Universidad de Brown, recuerda la excitación de tener acceso al Brown Corpus, coteniendo un millón de palabras en Inglés. desde entonces, nuestro campo ha visto corporas notables, unas 100 veces más grandes, y en 2006 Google lanzó un corpus conteniendo un trillón de palabras con su frecuencias de aparición, y conteniendo todas las secuencias de palabras de hasta 5 palabras de longitud. En ciertos aspectos, este corpus es un paso atrás con respecto al Brown Corpus: ha sido extraído a partir de páginas web sin filtrar, y por ello contiene sentencias incompletas, errores de escritura, errores gramaticales, y todo tipo de errores posibles. No está anotado de forma manual con etiquetas 'part-of-speech' (que determinan si una palabra es un sustantivo, verbo, etc.). Pero el hecho de que sea un millón de veces más grande que el Brown Corpus supera con creces cualquier otro inconveniente.
Un corpus de un trillón de palabras, junto con otros corpus extraídos de la Web, con millones, miles de millones, o trillones de enlaces, videos, imágenes, tablas, o incluso interacciones entre humanos, captura cualquier posible aspecto del comportamiento humano. Así pues, este corpus serviría como la base de un modelo completo para determinadas tareas, si supiéramos como extraer el modelo de los datos.
Entradas relacionadas