LoginRSS 2.0 Feed

¿open access sin open data?

Enviado el miércoles, 13 de diciembre de 2006 5:45

Conforme avanza el consenso sobre la pertinencia del open access, emerge con claridad la urgencia de avanzar en la dirección del open data

Los textos científicos se basan en datos. Las tablas, gráficos e imágenes que publican no son más que una forma singular de empaquetar (codificar) datos. La diferencia entre los datos en bruto, tal como son adquiridos en el laboratorio y, por ejemplo, su representación gráfica es infinita, porque ni se podrá verificar la precisión de las medidas, ni se podrán reutilizar para otros fines distintos a los que imaginó quien realizó el gráfico. De ahí que una política favorable al Open Access desemboque necesariamente en la reclamación del Open Data.

Hay muchos argumentos a favor del libre acceso a los datos científicos obtenidos mediante fondos públicos. Aquí no me voy a detener en consideraciones éticas que son obvias, pues si los laboratorios son pagados con el dinero de todos, lo lógico es que cualquier ciudadano pueda tener abierto el acceso a los textos y datos que se producen con su dinero.

Tampoco es desdeñable el despilfarro que supone que un grupo de científicos retenga una información que si no es difundida tendrá que volver a producirse. Pero es que además hay que darle valor a la posibilidad de que algún investigador a la vista de los datos imagine alguna conexión imprevista que suponga un avance para el conocimiento.

Esta es la preocupación que alimenta el blog petermr de Peter Murray Rust quien hace unos días publicó un interesante post para cuantificar lo que cuestan las políticas de ocultación/cerramiento de datos científicos. También ha dedicado algún tiempo en las últimas semanas al excelente artículo sobre Open Data en Wikipedia. Su razonamiento parte de un dato demoledor descubierto por John Davies, quien afirma que nunca salen del laboratorio el 80% de los datos cristalográficos (en todos los departamentos de química). O sea que, tras ser archivados (en CDROM o en máquinas locales), ya sea por olvido o exceso de celo, ya sea porque se cambia de tecnología o de objetivos, lo cierto es que los datos se pierden.

El asunto es grave. Además se ha comprobado que estas cifras son parecidas a las que se consideran probables en espectroscopía y psicología. Mucha gente se está preguntando por la profundidad de este problema y no es raro que proliferen los comités que intentan definir los protocolos de archivado, custodia y recuperación de datos científicos.

La preocupación va en aumento porque para que los datos sean reutilizables se necesita llegar a muchos acuerdos sobre el software que utilizar, los metadatos que introducir, los estándares obligados y, por fin, la forma en la que los científicos podrían usarlos. Y es que se pierden también millones de datos en el proceso mismo de publicación al emplearse formatos que, como pdf, destruyen el contenido semántico de los documentos.

Hace unos días, lo supe vía Useful Chemistry, Murray-Rest dio una magnífica conferencia sobre estas cuestiones bajo el título The Semantic Chemical Web (accesible en Google Video). Sin duda muy divulgativa, además de profunda y pertinente. Y es que las cuestiones relacionadas con los formatos son bastante más complejas de lo que aparentan, pues se entrecruzan de forma tan intrincada los aspectos técnicos, jurídicos, corporativos y éticos que hace inútil cualquier intento de separarlos.

Las decisiones pendientes, en consecuencia, son menos tecnológicas que políticas, una vez que el software disponible permite abordar estas problemáticas desde la perspectiva de lo que es mejor para el desarrollo del conocimiento y el ensanche del procomún.

Vengamos ya al asunto del despilfarro que implica esta forma tan absurda de no ser eficaz. El cálculo de Murray-Rust se basa en la hipótesis de que cada laboratorio completa anualmente unas 500 estructuras cristalográficas que, computándolas a la mitad de lo que cuesta en el mercado cada una -unos 1500-5000 US$ según su complejidad-, alcanza el monto total de medio millón de dólares al año. Cuando el cálculo se extiende a todo el planeta, Murray-Rest arriesga la estimación de que la información que primero se infrautiliza y luego se pierde ronda los 5 millones de dólares.

El open access nos lleva al open data y ambos exigen open standard. Pero quienes quieran aparentar que no entienden de estas cosas deben saber que hay demasiado dinero público fuera de control que se pierde por la mucha desidia y el poco rigor. Si hiciéramos las cuentas, o mejor si las cuentas fueran claras y públicas (open accountability, se diría en inglés) sería más fácil impulsar compromisos en la dirección de la cultura abierta (openness).

Compartir:

añadir a furl añadir a del.icio.us añadir a technorati añadir a blinklist añadir a digg añadir a google añadir a stumbleupon añadir a yahoo añadir a meneame ¿Qué es?

Comentarios

# re: ¿open access sin open data?

14/12/2006 11:04 por Juan jose Ibáñez
Buen post como siempre Antonio. De la industria para que hablar. En lo referente a la revista, la idea que leí en el libo de Anatomía del Fraude Científico, es que con las revistas en open access no era suficiente y que los propios depositorios institucionales debían incluir los datos totales y en bruto de las publicaciones con vistas a que otros investigadores pudieran comprovar la validez de las conclusiones y los análisis escrtitos en las publicaciones. Y efectivamente es muy importante.

Más aun, porque los datos de interés regional no son publicables, se pierde mucha información sobre, por ejemplo, los inventarios de los recursos naturales de un país y los arqueológicos taqmbién. Esto aparecían antes en revistas nacionales científicas, cuyo número decrece ya que para nuestros gestores "no sirven pa na". Cortedad de miras en donde las hubiera. Un buen artículo de interés regional es mucho mejor que unop malo de índole general y de esos hay muchos en las revistas indexadas.

Un saludo

Juanjo Ibáñez

# re: ¿open access sin open data?

09/02/2007 16:41 por sofia valdivia
Excellent, en verdad buen articulo y te da que pensar, en muchos sentidos aparte del economico, que es tambien importante sobretodo en una era en la que los recursos son escasos y necesarios para nuevos estudios o continuar los ya existentes.
Es cierto que se protegen datos, pero a que precio, el INTELECTUAL, donde se priva el nuevo aporte, una mente es un mundo y sin interelacion no hay avance, y el ECONOMICO, tanto estudio, tanto avance para solo archivar, almacenar y olvidar, hay un dicho muy cierto que se puede aplicar"Ni come ni deja comer" y creo que le viene exacto a estos casos.
Enviar Comentario
Titulo
 
Nombre
 
Correo electrónico
Comentario  
Por favor, escriba el código que ve a su izquierda (en mayúsculas):