Ir al contenido principal

Ciencia abierta: Datos de investigación

Inicio

De acuerdo con la OCDE, “datos de investigación” son los registros factuales (datos numéricos, textuales, imágenes y sonidos) utilizados como fuentes primarias para la investigación científica y que están aceptados por la comunidad investigadora como medios para validar conclusiones. Un conjunto de datos de investigación o dataset constituye una representación sistemática y parcial del tema u objeto investigado.

NO SON "datos de investigación" cuadernos de laboratorio, análisis preliminares, borradores de artículos, planes para futuros desarrollos, revisiones por Fuente: OECD Principles and Guidelines for Access to Research Data from Public Funding y Biblioteca UCM.

Antes de la finalización del proyecto de investigación es muy probable que existan tres tipos de datos:

  • Datos en bruto: datos obtenidos y/o creados durante la investigación.
  • Datos procesados: datos extraídos o derivados de los datos en bruto.
  • Datos referenciados: subconjunto de los datos procesados que se trabajan para realizar el análisis y extraer conclusiones.

La elección de los datos a preservar va a depender principalmente de la finalidad que se persiga:

  • Verificación de los resultados: los datos se utilizan para facilitar la transparencia y la replicación de la investigación. En este caso, se recomienda preservar tanto los datos procesados como los referenciados.
  • Reutilización de los datos: los datos se pueden utilizar en futuras investigaciones, tanto por el mismo investigador como por distintos investigadores. En este caso, se recomienda preservar los datos en bruto

En ambos casos, la documentación que acompaña a los datos debe ser lo suficientemente clara para cumplir con los criterios anteriores.

Fuente: Biblioteca Universidad Politécnica de Valencia

Por lo general es obligatorio hacer públicos los datos de las investigaciones financiadas con fondos públicos. No obstante, hay casos que pueden tener restricciones de acceso

  • Abiertos: según la licencia de uso (ver pestaña “¿Datos de investigación y propiedad intelectual?”).
  • Restringidos: se han de solicitar al responsable.
  • Embargados: ventana de tiempo sin acceso abierto por decisión de la editorial que ha publicado el trabajo y los datos de investigación.
  • Cerrados: contienen datos de carácter personal o que afecten a la intimidad, los derechos fundamentales y libertades públicas de las personas (si no es posible anonimizarlos). Los datos personales de los participantes en el estudio requieren el consentimiento de los mismos.

Mandatos

Para conocer los mandatos y normativa aplicable al depósito en abierto de los datos de investigación vaya a la pestaña Marco Legal.

Políticas editoriales

La mayoría de los editores científicos exigen que los datos en los que se basan los resultados de investigación estén disponibles en abierto en repositorios de datos con el objeto de facilitar el proceso de revisión por pares, facilitar la reproducibilidad, aumentar la confianza en la ciencia, etc. 
A continuación se puede consultar la política de acceso a datos de investigación de las siguientes editoriales:

Datos de investigación en abierto

Los datos de investigación abiertos son uno de los pilares sobre los que se sustenta el movimiento conocido como ciencia abierta para abrir todo el proceso y los resultados a la sociedad sin trabas. La apertura de los datos implica indudables beneficios tales como:

  • La promoción de la transparencia e integridad en investigación.
  • La reutilización de los datos que incentiva nuevos descubrimientos científicos.
  • El retorno de la inversión de las entidades públicas en investigación.
  • La integración en las redes de repositorios de datos a nivel internacional.
  • Transparencia y rendición de cuentas en términos de financiación pública.
  • Compromiso con la sociedad y con el avance de la ciencia.
  • Superar las desigualdades de países e instituciones que no pueden asumir el coste del acceso de pago a la información científica.
  • Permite que la investigación sea reproducible y creíble, ya que tiene el potencial de desvelar fraudes y malas prácticas.
  • Aumenta la visibilidad y el impacto de la investigación. 
  • Promueve la colaboración.
  • Evita la duplicidad de esfuerzos. 
  • Preserva los datos para la posterioridad.

El acrónimo FAIR hace referencia a las cuatro cualidades que deben tener los datos de investigación abiertos y sus metadatos (información sobre un objeto digital): 

  • Findable (Localizable): con los metadatos necesarios que los describan e identificadores únicos y persistentes para localizarlos.  
  • Accesible (Accesibles): accesibles (con o sin restricciones) mediante protocolos de comunicación estandarizados abiertos.   
  • Interoperable (Interoperables): con otros datos y repositorios y con otras aplicaciones.  
  • Reusable (Reutilizables): que se puedan reutilizar, con las condiciones y licencias de uso claramente definidas.       

Más información en:

 

La Ley de Propiedad Intelectual, que ha sido adaptada a la normativa europea, recoge dos aspectos muy importantes aplicables a los datos de investigación:

  • Son objeto de propiedad intelectual las creaciones originales literarias, artísticas o científicas expresadas por cualquier medio o soporte, tangible o intangible, actualmente conocido o que se invente en el futuro (artículo 10)
  • Las bases de datos donde figuran los datos de investigación sí son objeto de propiedad intelectual (artículo 12) mediante el derecho “sui generis” (título VIII)

 El derecho “sui generis” sobre una base de datos tiene las siguientes características:

  • Protege la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza el fabricante de la base de datos ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido.
  • El fabricante de una base de datos puede prohibir la extracción y/o reutilización de la totalidad o de una parte sustancial del contenido de la base de datos, evaluada cualitativa o cuantitativamente, siempre que la obtención, la verificación o la presentación de dicho contenido representen una inversión sustancial desde el punto de vista cuantitativo o cualitativo. Este derecho podrá transferirse, cederse o darse en licencia contractual.
  • No estarán autorizadas la extracción y/o reutilización repetidas o sistemáticas de partes no sustanciales del contenido de una base de datos que supongan actos contrarios a una explotación normal de dicha base o que causen un perjuicio injustificado a los intereses legítimos del fabricante de la base.
  • La protección de las bases de datos se entenderá sin perjuicio de los derechos existentes sobre su contenido.
  • El plazo de protección expirará quince años después del 1 de enero del año siguiente a la fecha en que haya terminado el proceso de fabricación de la base de datos. En los casos de bases de datos puestas a disposición del público antes de la expiración del período descrito anteriormente, el plazo de protección expirará a los quince años, contados desde el 1 de enero siguiente a la fecha en que la base de datos hubiese sido puesta a disposición del público por primera vez.

 Más información: OpenAIRE. OpenAIRE Legal Policy Webinar: Data, Data Ownership and Open Science

Licencias

Tal y como se recoge en las Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, es conveniente añadir licencias de uso a los sets de datos que se generen.

Para indicar el tipo de uso permitido, se pueden utilizar licencias Creative Commons 4.0 como las CC0 y CC-BY. También es posible utilizar licencias específicas para datos Open Data Commons:

  • Attribution License (ODC-By) — “Attribution for data/databases” permite a terceros copiar, distribuir y usar la base de datos, así como utilizarla para crear nuevos contenidos, bases de datos o colecciones de bases de datos (siempre y cuando se cite la base de datos original).
  • Open Data License (ODC-ODbL)— “Attribution Share-Alike for data/databases” permite a terceros copiar, distribuir y usar la base de datos, así como utilizarla para crear nuevos contenidos, bases de datos o colecciones de bases de datos, siempre y cuando que a las bases de datos derivadas se les otorgue la misma licencia que a la base de datos original.
  • Public Domain Dedication and License (ODC-PDDL). No impone restricción alguna, permite copiar, distribuir y utilizar la base de datos, así como crear nuevos productos y adaptaciones. 

Para programas informáticos se recomienda el uso de licencias de la Free Software Foundation y la Open Source Iniciative, que se pueden localizar desde https://tldrlegal.com/

Para la selección de licencias, tanto de datos como de programas informáticos, se recomienda la utilización de la herramienta License selector.

No hay que olvidar la idea general “Tan abierto como sea posible, tan cerrado como sea necesario” que se declara en las Guidelines on FAIR Data Managemenet in Horizon 2020. Cumpliendo esta premisa, no se difundirán en abierto los datos de investigación en determinadas situaciones: existencia de cláusulas de confidencialidad, posible explotación comercial o industrial, etc.

Otros aspectos sobre desechos de autor y propiedad intelectual

 

Plan de gestion de datos y depósito de estos

Un Plan de Gestión de Datos (PGD), es un documento formal que describe la gestión que se aplicará a los datos de investigación a lo largo del proyecto.

Aspectos que puede incluir un PGD (Fuente: Biblioteca CEPAL):

  • Qué datos de investigación va a crear o recopilar.
  • Responsables de cada aspecto del plan de gestión que está desarrollando.
  • Políticas (financieras, institucionales y legales) que se aplicarán a los datos.
  • Cómo se organizarán los datos (estructuras de carpetas, convenciones de nomenclatura de archivos, versionamiento de archivos).
  • Cómo se realizará la documentación de los datos durante la fase de recopilación y análisis de la investigación.
  • Qué prácticas de administración de datos usará para almacenar y proteger sus datos (copias de seguridad, almacenamiento, control de acceso, archivado)
  • Instalaciones y equipos serán necesarios (espacio en disco duro, servidor de copia de seguridad, repositorio).
  • Quién tendrá los derechos de propiedad y acceso a los datos.
  • Cómo se conservarán y se pondrán a disposición los datos a largo plazo, una vez que se complete la investigación.

El Plan es un documento vivo que evoluciona con el proyecto; debe actualizarse a mitad del proyecto, a su finalización y siempre que haya cambios significativos. 

¿Por qué realizar un PGD?

  • Requerimiento obligatorio de la agencia financiadora y/o de la institución
  • Es una buena práctica que ayuda a planificar la investigación con datos.

Horizonte Europa establece la obligatoriedad de redactar un PGD y actualizarlo regularmente, para todos aquellos proyectos subvencionados con fondos de la Unión Europea. 

10 pasos para elaborar un Plan de Gestión de Datos según REBIUN

    1. Revisa los requerimientos de la entidad financiadora.

    2. Identifica los datos: tipología, procedencia, volumen, formatos y ficheros. 

    3. Define cómo se organizarán y gestionarán los datos: nombre de los ficheros, control de versiones,   software necesario...

   4. Explica cómo se documentarán los datos: identifica la información a procesar, consulta si hay estándares o esquemas de metadatos, identifica herramientas que permitan gestionarlos. 

   5. Describe los procesos que aseguran una buena calidad de los datos

   6. Prepara una estrategia de almacenamiento (durante el proceso) y de preservación de datos (repositorio).

  7. Define las políticas de datos del proyecto: cuestiones sobre propiedad intelectual y cómo se tratarán los datos sensibles y personales.

  8. Describe cómo se difundirán los datos: dónde, cuáles, cuándo se van a difundir. Si publicarás los datos en un repositorio, como información suplementaria del artículo o como un "data paper". 

  9. Asigna roles y responsabilidades para las personas y organizaciones participantes en el proyecto.

  10. Prepara un presupuesto realista: la gestión de datos cuesta tiempo y dinero en términos de software, hardware, servicios y personal. 

Existen varias plantillas y plataformas de apoyo para cumplimentar el PGD; se basan en un cuestionario donde explicar la gestión durante el ciclo de vida de los datos, desde su creación hasta la finalización del proyecto de investigación.

Plantillas y guías:

Herramientas: 

  • ARGOS: herramienta en línea desarrollada por la Unión Europea para facilitar la gestión de los datos de investigación y la implementación de planes de gestión de datos. Asiste al investigador en todo el ciclo de vida de los datos y de los PGD, y ayuda a cumplir los diferentes mandatos y requisitos de convocatorias y entidades financiadoras para acceder a sus ayudas. 
  • DMPonline: herramienta de ayuda para elaborar planes de gestión de datos del Digital Curation Centre (DCC) del Reino Unido. Facilita unas    plantillas en las que pueden basarse los investigadores según los requerimientos de los organismos financiadores.
  • PGDonline: Basada en DMPOnline y traducida al español por el Consorcio Madroño.

Ejemplos de PGD

Un repositorio de acceso abierto almacena y permite el acceso libre a una colección digital de resultados de investigación. Un repositorio te puede proveer con un identificador persistente que facilita el hallazgo de las publicaciones. Muchos repositorios de datos también aceptan publicaciones y permiten establecer vínculos entre estas y sus datos subyacentes. Este es el caso de Helvia, Repositorio Institucional de la Universidad de Córdoba que tiene una de sus colecciones dedicadas a albergar los datos de investigación generados por los investigadores/as de nuestra comunidad universitaria. Para depositar datos de investigación en Helvia puede dirigirse a repositorio@uco.es.
Cuando los investigadores no disponen de un repositorio temático o institucional para depositar sus datos de investigación pueden usar el repositorio Zenodo, proporcionado por la Comisión Europea y alojado en el CERN. No olviden describir los conjuntos de datos con el mayor detalle posible para su posterior localización y reutilización.
También existen recolectores de datos, es decir, sistemas que permiten buscar en los metadatos pero no alojan los conjuntos de datos propiamente dichos, sino que los enlazan al repositorio que los guarda.

Repositorios de datos

Dryad es un repositorio de datos de investigación orientado a facilitar su descubrimiento, libre reutilización y citables. Surgió de la iniciativa de un grupo de importantes revistas  sociedades científicas de adoptar una política conjunta de archivo de datos para sus publicaciones y del reconocimiento de que era necesaria una infraestructura de datos abierta, fácil de usar, sin ánimo de lucro y gestionada por la propia comunidad.

eCiencia Datos. Repositorio que reúne los conjuntos de datos del Consocio Madroño (universidad públcias madrilenas y UNED).

Figshare es un repositorio digital en línea donde los investigadores pueden preservar y compartir todos los datos y resultados que genera un proceso de investigación, incluyendo figuras, bases de datos, imágenes y vídeos. También permite a los investigadores publicar los datos negativos de una investigación.

Harvard Dataverse es un repositorio de datos gratuito abierto a todos los investigadores de cualquier disciplina, tanto dentro como fuera de la comunidad de Harvard, donde se puede compartir, archivar, citar, acceder y explorar los datos de investigación.

Mendeley Data es un repositorio comunitario gratuito y seguro basado en la nube donde puedes almacenar tus datos, asegurando que sea fácil compartirlos, acceder a ellos y citarlos, estés donde estés.

UK Data Archive. Colección de datos sociales, económicos y de población del Reino Unido desde hace más de 50 años. UK Data Service adquiere, conserva, publica y preserva datos primarios de investigación en nombre del Servicio de Datos del Reino Unido.

Zenodo es un repositorio de acceso abierto de propósito general desarrollado bajo el programa europeo OpenAIRE y operado por CERN.

 

Recolectores de metadatos y directorios de repositorios

Dataset Search de Google

Dimensions

OAD Data Repositories

OpenDOAR

Re3Data, Registro de repositorios de datos de investigación por disciplinas, tipo de contenido y país de origen

Recolecta

Repositorios recomendados por PLOS One por disciplinas

Por qué es importante citar los datos:

  • Los conjuntos de datos también son resultados de investigación como los artículos, monografías, etc.
  • Facilita la identificación y el acceso a los datos y de esta forma su localización, validación y reutilización.
  • Permite reconocer la autoría de sus creadores.
  • Facilita la métrica e impacto de los datos.
  • Favorece la transparencia de la investigación científica.

Buenas prácticas para citar datos:

  • Se debe facilitar la identificación, localización y el acceso a los datos mediante un identificador único y persistente (DOI, Handle, etc.)
  • Cada conjunto y subconjunto de datos (dataset) debe citarse de forma independiente.
  • Las citas de los datos utilizados han de aparecer en la sección de referencias bibliográficas de la publicación resultante.
  • Se recomienda incluir un identificador único de autor (ORCID, etc.).

Elaboración de la cita:

Existen elementos mínimos obligatorios y otros recomendados que se combinan para elaborar la cita en cualquier estilo estándar (ALA, MLA, Chicago, etc.) o los propuestos por los principales repositorios de datos (Dataverse, Dryad, etc.).

  • Obligatorios: autor(es), fecha, título, identificador único persistente, tipo de recurso, versión y/o edición.
  • Recomendados: identificador de autor, repositorio de datos, publicación, productor, ámbito geográfico, ámbito temporal.

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional
.