El conjunto de datos ha sido enviado por Peter N. Skomoroch, como un subconjunto de la información que está utilizando para alimentar a la web trendingtopics.org. Este conjunto de datos contiene 7 meses de estadísticas horarias para más de 8 millones de artículos en la Wikipedia (aproximadamente 2.5 millones de la Wikipedia en inglés), junto con el contenido asociado de la wikipedia, el grafo de enlaces y los metadatos. Todo el contenido textual, enlaces y estadísticas de este conjunto de datos se han liberado bajo licencia
GFDL (GNU Free Document License).
Para todos aquellos interesados en la Minería de Datos, el disponer de un conunto de datos como este es una gran oportunidad para hacer Minería de Datos a gran escala. Dentro del dataset se encuentran tanto las estadísticas horarias, como los enlaces entre artículos de la Wikipedia y los propios contenidos de la misma Wikipedia, por lo que se pueden aprovechar para una gran variedad de tareas.
Entradas relacionadas