paint-brush
Meta de OpenCitations: resumen e introducciónpor@categorize
108 lecturas

Meta de OpenCitations: resumen e introducción

Demasiado Largo; Para Leer

featured image - Meta de OpenCitations: resumen e introducción
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Autores:

(1) Arcangelo Massari, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(2) Fabio Mariani, Instituto de Filosofía y Ciencias del Arte, Universidad Leuphana, Lüneburg, Alemania {[email protected]};

(3) Ivan Heibi, Centro de Investigación para Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(4) Silvio Peroni, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(5) David Shotton, Oxford e-Research Centre, Universidad de Oxford, Oxford, Reino Unido {[email protected]}.

Tabla de enlaces

Abstracto

OpenCitations Meta es una nueva base de datos que contiene metadatos bibliográficos de publicaciones académicas involucradas en citas indexadas por la infraestructura OpenCitations. Se adhiere a los principios de ciencia abierta y proporciona datos bajo una licencia CC0 para una máxima reutilización. Se puede acceder a los datos a través de un punto final SPARQL, API REST y volcados. OpenCitations Meta tiene tres propósitos importantes. En primer lugar, permite desambiguar las citas entre publicaciones descritas utilizando diferentes identificadores de diversas fuentes. Por ejemplo, puede vincular publicaciones identificadas por DOI en Crossref y PMID en PubMed. En segundo lugar, asigna nuevos identificadores globalmente persistentes (PID), conocidos como metaidentificadores de OpenCitations (OMID), a recursos bibliográficos sin identificadores persistentes externos existentes como DOI. Por último, al alojar internamente los metadatos bibliográficos, OpenCitations Meta mejora la velocidad de recuperación de metadatos para citas y documentos citados. La base de datos se completa mediante la curación de datos automatizada, incluida la deduplicación, la corrección de errores y el enriquecimiento de metadatos. Los datos se almacenan en formato RDF siguiendo el modelo de datos de OpenCitations y se realiza un seguimiento de los cambios y la información de procedencia. OpenCitations Meta y su producción. OpenCitations Meta actualmente incorpora datos de Crossref, DataCite y NIH Open Citation Collection. En términos de conjuntos de datos de publicación semántica, actualmente es el primero en volumen de datos.



Palabras clave : citas académicas, metadatos bibliográficos, procedencia, seguimiento de cambios, ciencia abierta, OpenCitations

1. Introducción

OpenCitations es una organización independiente sin fines de lucro de infraestructura para estudios abiertos dedicada a la publicación de datos bibliográficos y de citas abiertos utilizando tecnologías de Web Semántica. OpenCitations almacena y gestiona información sobre citas académicas, es decir, los vínculos conceptuales que conectan una entidad citante con una entidad citada, en los índices de OpenCitations. Hasta ahora, ha habido cuatro índices OpenCitations: COCI (https://opencitations.net/index/coci), el índice OpenCitations de Crossref open DOI-to-DOI Citations (Heibi et al., 2019b); POCI (https://opencitations.net/index/poci), el índice OpenCitations de PubMed abre citas de PMID a PMID; DOCI (https://opencitations.net/index/doci), el índice OpenCitations de citas abiertas DOI a DOI de DataCite; y CROCI (https://opencitations.net/index/croci), el Índice de citas abiertas colaborativas (Heibi et al., 2019a).


Si bien la cobertura de los índices OpenCitations se ha acercado a la paridad con la de los índices de citas comerciales patentados (ver https://opencitations.hypotheses.org/1420), ha habido cuestiones pendientes que OpenCitations no había abordado anteriormente.


Primero está la desambiguación de las citas. En ocasiones, a los recursos bibliográficos se les habrán asignado varios identificadores, como un DOI y un PMID. En tales casos, la misma cita puede representarse varias veces de diferentes maneras según la fuente de datos. Por ejemplo, OpenCitations describirá en COCI una cita entre dos publicaciones utilizando metadatos derivados de Crossref como una cita de DOI a DOI, y en POCI la misma cita utilizando metadatos derivados de PubMed como una cita de PMID a PMID. Esta duplicación plantea problemas a la hora de contar el número de citas entrantes y salientes de cada documento, una estadística crucial para bibliotecas, revistas y estudios de cienciometría. El uso de OpenCitations Meta nos permite deduplicar dichas citas y resolver los problemas que dicha duplicación causaría de otro modo.


En segundo lugar, la asignación de identificadores globalmente persistentes a documentos no es una práctica universal en todos los campos académicos. Gorráiz et al. (2016) demostraron que las comunidades de Ciencias Naturales y Sociales adoptan DOI en mucha mayor medida que la comunidad de Artes y Humanidades. De esa investigación, realizada en Scopus y la Web of Science Core Collection, surgió que casi el 90% de las publicaciones en Ciencias y Ciencias Sociales están asociadas a un DOI, mientras que en Arte y Humanidades esa cifra es sólo el 50%. Además, en lo que respecta a las Humanidades, en muchos campos (por ejemplo, en Historia) se requieren citas de fuentes primarias antiguas que carecen de DOI (por ejemplo, Aristóteles). Si un documento no tiene identificador, sus metadatos no respetan los principios FAIR (Wilkinson et al., 2016) de que los objetos de investigación digital académica deben ser localizables, accesibles, interoperables y reutilizables. Un identificador globalmente único y persistente es fundamental para que los metadatos sean localizables y accesibles. Además, un recurso bibliográfico sin identificador impide que las citas que lo incluyan se describan respetando los principios FAIR. Esta es la razón por la que, según la Definición de Citas Abiertas (Peroni & Shotton, 2018) que rige la población de Índices OpenCitations, dos entidades cualesquiera vinculadas por una cita indexada deben identificarse mediante un identificador persistente proveniente del mismo esquema de identificador, por ejemplo. Por ejemplo, ambos con DOI o ambos con PubMed ID. Por ejemplo, COCI (Heibi et al., 2019b) solo almacena información de citas cuando las entidades citantes y citadas se describen en Crossref y ambas tienen DOI. Las citas que involucran publicaciones que carecen de DOI u otros PID reconocidos hasta ahora han sido excluidas de los índices de citas de OpenCitations.


Pero ahora, OpenCitations Meta resuelve los problemas planteados por los recursos bibliográficos identificados por múltiples identificadores y también por los recursos bibliográficos que carecen de identificadores persistentes, asociando un nuevo identificador globalmente persistente a cada documento descrito en OpenCitations Meta: un OpenCitations Meta Identifier (OMID). De esta manera, todas las citas se pueden representar como citas de OMID a OMID (Fig. 1). Al proporcionar un identificador único para cada entidad almacenada en OpenCitations Meta, el OMID de la entidad actúa como un proxy entre diferentes identificadores externos utilizados para cada entidad, lo que permite la desambiguación. Además, OpenCitations Meta puede contener metadatos para todas las publicaciones académicas, cada una identificada mediante un OMID, sin la necesidad obligatoria de que la fuente de los metadatos proporcione un identificador persistente externo.


Por lo tanto, gracias a OpenCitations Meta, OpenCitations ahora puede almacenar metadatos de todas las publicaciones académicas, y las citas que vinculan todas esas publicaciones se pueden incluir dentro de un nuevo Índice OpenCitations inclusivo, del cual los demás índices (COCI, DOCI, POCI, etc.) Habrá subíndices, según las diversas fuentes de entrada de la información de la cita.


En tercer lugar está el rendimiento temporal previamente deficiente de los servicios de OpenCitations, en particular las operaciones API que devuelven metadatos bibliográficos básicos de citas y recursos citados. Esto se debe a que los propios índices OpenCitations han contenido hasta ahora sólo metadatos relacionados con las citas (las citas se tratan como entidades de datos de primera clase con sus propios metadatos), pero no han contenido metadatos bibliográficos relacionados con las entidades citadas y citadas (título, autores, números de página). , etc.). Más bien, hasta ahora esos metadatos se han recuperado sobre la marcha mediante solicitudes API explícitas a servicios externos como Crossref, ORCID y DataCite.


Durante los últimos tres años, para abordar los problemas mencionados anteriormente, hemos desarrollado y probado el software que estamos utilizando ahora para crear una nueva colección de metadatos bibliográficos, a saber, OpenCitations Meta, que lanzamos en diciembre de 2022. El software que respalda esta base de datos es abierto. fuente y disponible en https://github.com/opencitations/oc_meta. Los metadatos expuestos por OpenCitations Meta incluyen los metadatos bibliográficos básicos que describen un recurso bibliográfico académico. En particular, almacena todos los identificadores de recursos bibliográficos conocidos para el recurso bibliográfico (por ejemplo, DOI, PMID, ISSN e ISBN), el título, el tipo, la fecha de publicación, las páginas, el lugar del recurso y el volumen y los números de publicación donde se encuentra el recurso. El lugar es un diario. Además, OpenCitations Meta contiene metadatos sobre los principales actores involucrados en la publicación de cada recurso bibliográfico, es decir, los nombres de los autores, editores y editores, cada uno incluyendo sus propios identificadores persistentes (por ejemplo, ORCID) cuando estén disponibles. Nuestra intención es agregar campos de metadatos adicionales (por ejemplo, instituciones de los autores e información de financiación) en una fecha posterior.


Figura 1: Si un documento se describe mediante múltiples identificadores, por ejemplo, un DOI de Crossref y un PMID de Pubmed, las citas que lo involucran pueden describirse de múltiples maneras, creando un problema de ambigüedad y deduplicación. El uso del Metaidentificador de OpenCitations resuelve este problema al actuar como proxy entre diferentes identificadores externos.


El proceso de generación de OpenCitations Meta se puede dividir en dos pasos. El primer paso implica la curación de los datos de entrada. El procedimiento curatorial se refiere a la corrección automática de errores, la estandarización del formato de los datos y la deduplicación de entradas de metadatos separadas para el mismo elemento. El proceso de deduplicación se basa únicamente en identificadores. Este enfoque favorece la precisión sobre la recuperación: por ejemplo, las personas se deduplican solo si tienen un ORCID asignado, y nunca mediante otras heurísticas. Después de las etapas de normalización y deduplicación, a cada entidad se le asigna un Metaidentificador de OpenCitations (OMID), independientemente de que ya tenga o no un identificador persistente externo (por ejemplo, DOI, PubMed ID, ISBN).


El segundo paso para completar OpenCitations Meta implica convertir los datos de entrada sin procesar a RDF (formato de datos abiertos vinculados) que cumpla con el modelo de datos de OpenCitations (OCDM) (Daquino et al., 2020), para permitir consultar dichos datos a través de SPARQL. Durante este proceso, se presta gran atención a la procedencia y al seguimiento de los cambios: cada vez que se crea, modifica, elimina o fusiona una entidad, dichos cambios se registran en RDF y se caracterizan por sus fechas de creación, fuentes primarias y agentes responsables. .


El resto del documento está organizado de la siguiente manera. La sección 2 revisa otros conjuntos de datos de publicación semántica. Posteriormente, en la Sección 3, se presenta en detalle el enfoque metodológico adoptado para producir OpenCitations Meta, comenzando con la fase curatorial (3.1), luego describiendo la corrección de errores (3.2), pasando a una explicación de la traducción de datos a RDF según el OCDM. (3.3), y concluye con una descripción de la producción de los datos de procedencia y seguimiento de cambios del RDF (3.4). La Sección 4 proporciona algunas estadísticas descriptivas sobre el actual conjunto de metadatos de OpenCitations. Finalmente, la Sección 5 analiza algunas limitaciones actuales de OpenCitations Meta y una consideración de dónde se encuentra OpenCitations Meta entre conjuntos de datos académicos similares.


Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.