Conforme avanza el consenso sobre la
pertinencia del open access, emerge con claridad la urgencia de
avanzar en la dirección del open data
Los textos científicos se basan
en datos. Las tablas, gráficos e imágenes que publican
no son más que una forma singular de empaquetar (codificar)
datos. La diferencia entre los datos en bruto, tal como son
adquiridos en el laboratorio y, por ejemplo, su representación
gráfica es infinita, porque ni se podrá verificar la
precisión de las medidas, ni se podrán reutilizar para
otros fines distintos a los que imaginó quien realizó
el gráfico. De ahí que una política favorable
al Open Access desemboque necesariamente en la reclamación del
Open Data.
Hay muchos
argumentos
a favor del libre acceso a los datos científicos
obtenidos mediante fondos públicos. Aquí no me voy a
detener en consideraciones éticas que son obvias, pues si los
laboratorios son pagados con el dinero de todos, lo lógico es
que cualquier ciudadano pueda tener abierto el acceso a los textos y
datos que se producen con su dinero.
Tampoco es desdeñable el
despilfarro que supone que un grupo de científicos retenga una
información que si no es difundida tendrá que volver a
producirse. Pero es que además hay que darle valor a la
posibilidad de que algún investigador a la vista de los datos
imagine alguna conexión imprevista que suponga un avance para
el conocimiento.
Esta es la preocupación que
alimenta el
blog
petermr de
Peter
Murray Rust quien hace unos días publicó
un interesante post para cuantificar lo que cuestan las políticas
de ocultación/cerramiento de datos científicos. También
ha dedicado algún tiempo en las últimas semanas al
excelente artículo sobre
Open
Data en Wikipedia. Su razonamiento parte de un
dato
demoledor descubierto por John Davies, quien afirma
que
nunca
salen del laboratorio el 80% de los datos cristalográficos
(en todos los departamentos de química). O sea que, tras ser
archivados (en CDROM o en máquinas locales), ya sea por olvido
o exceso de celo, ya sea porque se cambia de tecnología o de
objetivos, lo cierto es que los datos se pierden.
El asunto es grave. Además se ha
comprobado que estas cifras son parecidas a las que se consideran
probables en espectroscopía y psicología. Mucha gente
se está preguntando por la profundidad de este problema y no
es raro que proliferen los comités que intentan definir los
protocolos de archivado, custodia y recuperación de datos
científicos.
La preocupación va en aumento
porque para que los datos sean reutilizables se necesita llegar a
muchos acuerdos sobre el software que utilizar, los metadatos que
introducir, los estándares obligados y, por fin, la forma en
la que los científicos podrían usarlos. Y es que se
pierden también millones de datos en el proceso mismo de
publicación al emplearse formatos que, como
pdf,
destruyen el contenido semántico de los documentos.
Hace unos días, lo supe vía
Useful
Chemistry, Murray-Rest dio una magnífica
conferencia sobre estas cuestiones bajo el título
The
Semantic Chemical Web (accesible en Google Video). Sin
duda muy divulgativa, además de
profunda y pertinente
. Y es que las
cuestiones relacionadas con los formatos son bastante más
complejas de lo que aparentan, pues se entrecruzan de forma tan intrincada
los aspectos
técnicos, jurídicos, corporativos y éticos que hace inútil cualquier intento de separarlos.
Las decisiones pendientes, en
consecuencia, son menos tecnológicas que políticas, una
vez que el software disponible permite abordar estas problemáticas
desde la perspectiva de lo que es mejor para el desarrollo del
conocimiento y el ensanche del procomún.
Vengamos ya al asunto del despilfarro
que implica esta forma tan absurda de no ser eficaz. El cálculo
de Murray-Rust se basa en la hipótesis de que cada laboratorio
completa anualmente unas 500 estructuras cristalográficas que,
computándolas a la mitad de lo que cuesta en el mercado cada
una -unos 1500-5000 US$ según su complejidad-, alcanza el
monto total de medio millón de dólares al año.
Cuando el cálculo se extiende a todo el planeta, Murray-Rest
arriesga la estimación de que la información que
primero se infrautiliza y luego se pierde ronda los 5 millones de
dólares.
El
open access nos lleva al
open
data y ambos exigen
open standard. Pero quienes quieran
aparentar que no entienden de estas cosas deben saber que hay
demasiado dinero público fuera de control que se pierde por la
mucha desidia y el poco rigor. Si hiciéramos las cuentas, o
mejor si las cuentas fueran claras y públicas (
open
accountability,
se diría en inglés) sería más fácil
impulsar compromisos en la dirección de la cultura abierta
(
openness).