Ir al contenido principal

Datos de investigación

Gestión de los datos

Por gestión de datos de investigación (RDM, Research Data Management) entendemos el conjunto de tareas que permiten la recopilación, organización, documentación, almacenamiento y preservación de los datos utilizados o generados durante un proyecto de investigación. Gestionar los datos de investigación es importante para asegurar la reproducibilidad de la investigación, así como para demostrar la veracidad de la información y la metodología de la misma. 

Recomendaciones generales:

 

Aspectos éticos 

En la Universidad de Sevilla, si la investigación implica experimentación con animales o seres humanos, se debe contar con la autorización previa de los Comités Éticos. Si se va a trabajar con datos personales o sensibles, es necesario contactar con la delegada de Protección de Datos para cumplir con los requisitos del Tratamiento de Datos Personales en Actividades de Investigación.

Además, en el caso de que la investigación incluya estudios con personas, deben obtenerse consentimientos informados de las personas implicadas en el proyecto para el tratamiento de sus datos.

Otros recursos: 

 

Protección de datos personales

Todas las actividades de investigación e innovación deben cumplir con los principios éticos y la legislación pertinente a nivel nacional, europeo e internacional. La protección de datos personales es una cuestión prioritaria, por lo que se debe planificar desde el comienzo del proyecto de investigación ya que afecta al medio de almacenamiento elegido, al acceso a los datos, a la compartición de copias, a los protocolos de seguridad, al tratamiento de datos personales, etc.

Hay que tener en cuenta varias normas básicas en materia de protección de datos:

 

Anonimización

Cuando se trabaja con datos personales es obligatorio garantizar la privacidad y el anonimato de las personas implicadas. Para ello es necesario anonimizar los datos; la anonimización de datos es el proceso que permite eliminar las posibilidades de identificación de las personas. 

Para anonimizar datos, OpenAire recomienda utilizar la herramienta Amnesia. Para más información, consulta la guía de uso, la presentación y el vídeo del webinar organizado por Open Aire en junio de 2020.

Se deben tener en cuenta también las Orientaciones y garantías en los procedimientos de anonimización de datos personales de la Agencia Española de Protección de Datos.

 

  • Seminario web organizado por la FECYT, como NOAD para España del proyecto OpenAIRE, que proporciona una perspectiva legal tanto teórica como práctica a la gestión de datos de investigación :

El formato elegido debe garantizar la reutilización y preservación de los datos, así como cumplir los requerimientos de los organismos financiadores y los requisitos de los repositorios donde se van a depositar. Se recomienda utilizar formatos abiertos, no propietarios, para garantizar que la mayoría de los softwares sean capaces de interpretar los datos.

 

Recomendaciones:

  • Utilizar formatos estándar y abiertos para asegurar el acceso a largo plazo.
  • Guardar los archivos en formatos abiertos y propietarios (por ejemplo, data.xlsx y data.csv) para mejorar la usabilidad.
  • Mantener el mismo nombre de archivo para el mismo archivo en diferentes formatos (por ejemplo, data.doc y data.txt).
  • Comprimir los datos para facilitar el intercambio y la descarga de archivos grandes.
  • Incluir la documentación de los datos, las transformaciones y las directrices del software para acceder al formato propietario.
  • Comprobar si hay errores u omisiones al convertir el archivo a un formato diferente.

 

Formatos de archivos FAIR:

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

Fuente: How to FAIR. (s.f.). File formats

 

Herramientas para la conversión de formatos:

 

Más información

La nomenclatura utilizada para nombrar los archivos ha de ser significativa, coherente y descriptiva, de forma que facilite la gestión y localización de archivos.

Recomendaciones:

  • Nombrar los archivos con nombres cortos y relevantes.
  • No utilizar caracteres especiales: ~ ¡ ! @ # $ % ^ & * ( ) ` ; < > ¿ ? , [ ] { } ' " |
  • Usar el guion bajo, mejor que el espacio en blanco.
  • Identificar la actividad o proyecto en el nombre del archivo.
  • Ser consistente con la nomenclatura que se escoge, mayúsculas, minúsculas, forma de las fechas, AAAA‐MM‐DD o  AAAA‐MM (ISO 8601 aplicada a la gestión de datos de investigación).
  • Conservar las extensiones de 3 letras específicas a códigos de la aplicación (p. ej., .doc, .xls, .mov, .tif).

 

Herramientas para renombrar ficheros 

Organización de los archivos

El nombre, la estructura de las carpetas y el control de versiones de los ficheros deben facilitar la búsqueda, localización y comprensión de los datos.

  • Pensar la mejor jerarquía para los archivos: profunda o superficial.
  • Organizar sistemáticamente las carpetas y ficheros.
  • Restringir el nivel de carpetas a tres o cuatro.
  • Separar los trabajos finalizados de los que los que están en curso.

 

Control de versiones

Cuando se actualizan los archivos de datos, es importante tener un control de las diferentes versiones. Algunos consejos para evitar confundir los diferentes estados de los archivos son:

  • Si hay varias versiones nombrar por número (por ejemplo v01, v02, etc.).
  • Para la versión final se puede nombrar como FINAL.
  • Decidir cuántas versiones de un archivo y qué versiones se conservarán y durante cuánto tiempo.
  • Registrar los cambios realizados en un archivo cuando se crea una nueva versión.
  • Realizar un seguimiento de la ubicación de los archivos si están almacenados en distintas ubicaciones.
  • Elegir una sola ubicación para las versiones importantes o definitivas.

 

Herramientas para gestionar versiones

Documentar adecuadamente los datos garantiza la correcta comprensión, interpretación y reutilización de los datos ya sea por los propios miembros del grupo de investigación en una fecha posterior como por otras personas interesadas cuando se depositan y comparten.

Existen varias formas de documentar los datos:

  • Cuestionarios
  • Ficheros readme
  • Libro de códigos
  • Diccionario de datos
  • Cuadernos de laboratorio

La forma más habitual es crear un fichero “README” en formato txt. Dicho fichero se ubicará junto con el resto de ficheros que contienen los datos de investigación y contendrá la siguiente información (en inglés):

  •     Información general:
    • Título del dataset
    • Nombre, afiliación, dirección y email del investigador principal y los coautores
    • Fecha de creación y localización de los datos
    • Información sobre fuentes de financiación
    • Breve descripción del conjunto de datos
    • Palabras clave
  •     Licencias y restricciones de uso de los datos
  •     Información sobre los archivos: nombre y descripción de los archivos, versión, tamaño del conjunto de datos, etc.
  •     Información sobre la metodología: descripción de la metodología para la creación y procesamiento de los datos
  •     Información específica sobre los datos:
    • Listado de variables: nombres completos y encabezamientos en las columnas para datos tabulados
    • Unidades de medida
    • Definición de códigos o símbolos usados para registrar datos faltantes

Existen diversas guías y plantillas de ayuda para elaborar el archivo:

 

Almacenamiento

Se trata de elegir qué sistemas o herramientas se utilizarán para guardar los datos durante la investigación para hacer que sean accesibles para los miembros de grupo; determinar qué personas accederán, quién controlará el acceso a los datos y cómo se controlará que el acceso sea seguro.

Los datos se pueden almacenar en:

  • PC/Ordenador portátil.
  • Almacenamiento óptico (CDs, DVDs).
  • Unidades externas (USB, discos duros).
  • Servicios de almacenamiento institucional.
  • Servicios en la nube (OneDrive, Google drive...).

Se recomienda utilizar los servicios de almacenamiento institucionales; en el caso de la Universidad de Sevilla el Disco Virtual y OneDrive (servicio de Microsoft suscrito por la US) porque ofrece copias de seguridad, creación de grupos para compartir información y permite el acceso a los colaboradores externos del proyecto. 

 

Seguridad

Utilizar contraseñas robustas y cambiarlas cada cierto tiempo para resistir ataques informáticos y encriptación de datos altamente sensibles.
No enviar datos por correo electrónico y utilizar sistemas de encriptado.

 

Otras herramientas para el almacenamiento de datos

Muchas agencias de financiación, instituciones y revistas académicas tienen mandatos y políticas sobre la publicación en acceso abierto de los datos de investigación. El cumplimiento de estos mandatos y políticas se suele realizar a través del depósito de los datos de investigación en un repositorio de datos.

"Tan abierto como sea posible, tan cerrado como sea necesario": la obligatoriedad de depositar los datos resultantes de una investigación financiada con fondos públicos no es incompatible con diversas situaciones que justifican que el acceso a los datos esté restringido temporal o permanentemente debido a cuestiones de seguridad, cláusulas de confidencialidad, explotación comercial o industrial, etc.  

Dónde depositar los datos

Licencias de uso

Para facilitar la reutilización de los datos depositados en acceso abierto, es necesario indicar los usos permitidos a otras personas. En el contexto de la Ciencia Abierta, se recomienda la utilización de licencias que permitan a terceros acceder, explotar, reproducir y difundir los datos

Existen diferentes tipos de licencias de uso:

  • Creative Commons: se pueden aplicar a cualquier material (incluidos los datos) y son las más utilizadas:
    • CC-0 Dominio público: obra libre de restricciones.
    • CC-BY: permite compartir o adaptar reconociendo la autoría.
    • CC-BY-SA: permite compartir o adaptar reconociendo la autoría y compartiendo con la misma licencia que el original.
    • CC-BY-NC: permite compartir o adaptar reconociendo la autoría y sin utilizarlos con fines comerciales.

          Página para seleccionar la licencia http://creativecommons.org/choose/?lang=es_ES

          Más información sobre licencias Creative Commons

 

La herramienta gratuita License Selector es muy útil para decidir qué licencia de uso se ajusta mejor a cada tipo de dataset o software asociado.

Los datos deben citarse correctamente, siguiendo un formato de citas específico y deben aparecer con el resto de referencias bibliográficas de la publicación resultante.

DOI Citation Formatter es un servicio ofrecido por DataCite que construye automáticamente las citas a partir del DOI asignado a los datos y conforme al estilo que seleccionemos.

 

Licencia Creative Commons
2.985.468 visitas     Biblioteca de la Universidad de Sevilla Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.