LoginRSS 2.0 Feed

sábado, 13 de junio de 2009

A través de la cuenta de Twitter de Gregory Piatetsky (KDnuggets, SIGKDD), nos enteramos de la liberación de un conjunto de datos que incluye 7 meses de estadísticas de tráfico horarias para más de 8 millones de artículos de la Wikipedia. Estas estadísticas pueden ser utilizadas para realizar Minería de Datos y extraer conocimiento interesante acerca de los temas de interés, etc., de hecho hasta ahora han sido utilizadas para alimentar la web trendingtopics.org.

El conjunto de datos ha sido enviado por Peter N. Skomoroch, como un subconjunto de la información que está utilizando para alimentar a la web trendingtopics.org. Este conjunto de datos contiene 7 meses de estadísticas horarias para más de 8 millones de artículos en la Wikipedia (aproximadamente 2.5 millones de la Wikipedia en inglés), junto con el contenido asociado de la wikipedia, el grafo de enlaces y los metadatos. Todo el contenido textual, enlaces y estadísticas de este conjunto de datos se han liberado bajo licencia GFDL (GNU Free Document License).

Para todos aquellos interesados en la Minería de Datos, el disponer de un conunto de datos como este es una gran oportunidad para hacer Minería de Datos a gran escala. Dentro del dataset se encuentran tanto las estadísticas horarias, como los enlaces entre artículos de la Wikipedia y los propios contenidos de la misma Wikipedia, por lo que se pueden aprovechar para una gran variedad de tareas. 


votar

Entradas relacionadas

6:14 | gestionado por José Carlos Cortizo y Luis Ignacio Díaz | Enviar comentario (2)