paint-brush
Meta de OpenCitations: trabajos relacionadospor@categorize

Meta de OpenCitations: trabajos relacionados

Demasiado Largo; Para Leer

featured image - Meta de OpenCitations: trabajos relacionados
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Autores:

(1) Arcangelo Massari, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(2) Fabio Mariani, Instituto de Filosofía y Ciencias del Arte, Universidad Leuphana, Lüneburg, Alemania {[email protected]};

(3) Ivan Heibi, Centro de Investigación para Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(4) Silvio Peroni, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};

(5) David Shotton, Oxford e-Research Centre, Universidad de Oxford, Oxford, Reino Unido {[email protected]}.

Tabla de enlaces

2. Trabajos relacionados

En esta sección, revisaremos los conjuntos de datos de publicaciones académicas más importantes a los que el acceso no requiere suscripción, es decir, conjuntos de datos disponibles públicamente que contienen metadatos bibliográficos académicos. Dado que OpenCitations Meta utiliza tecnologías de Web Semántica para representar datos, se prestará especial atención a los conjuntos de datos RDF, a saber, Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph y Scholarly Data. Además, se describirán OpenAIRE Research Graph, OpenAlex y Scholarly Data, ya que son los conjuntos de datos más extensos en términos de número de trabajos, aunque no representan datos semánticamente.


OpenAlex (Priem et al., 2022) surgió de las cenizas de Microsoft Academic Graph el 1 de enero de 2022 y heredó todos sus metadatos. Incluye datos de Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), el Centro Internacional ISSN[1] y el Índice General de Internet Archive[2]. Además, los rastreos web se utilizan para agregar metadatos faltantes. Con más de 240 millones de obras[3], OpenAlex es el conjunto de datos de metadatos bibliográficos más extenso hasta la fecha. OpenAlex asigna identificadores persistentes a cada recurso. Además, los autores se desambiguan mediante heurísticas basadas en coautores, citas y otras características de los recursos bibliográficos. Los datos se distribuyen bajo una licencia CC0 y se puede acceder a ellos a través de API, interfaz web o descargando una copia instantánea completa de la base de datos OpenAlex.


El proyecto OpenAIRE comenzó en 2008 para apoyar la adopción de los mandatos de acceso abierto de la Comisión Europea (Manghi et al., 2010), y ahora es la organización emblemática dentro del programa de investigación e innovación Horizonte 2020 para realizar la Nube Europea de Ciencia Abierta (European Open Science Cloud). Dirección General de Investigación e Innovación., 2016). Uno de sus resultados principales es OpenAIRE Research Graph, que incluye metadatos sobre productos académicos (por ejemplo, literatura, conjuntos de datos y software), organizaciones, financiadores de investigaciones, flujos de financiación, proyectos y comunidades, junto con información de procedencia. Los datos se recopilan de una variedad de fuentes (Atzori et al., 2017): archivos, por ejemplo, ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic et al., 2018) y Zenodo ( Investigación y OpenAIRE, 2013); servicios de agregación, por ejemplo, DOAJ (Morrison, 2017) y OpenCitations (Peroni & Shotton, 2020); y otros gráficos de investigación, por ejemplo, Crossref (Hendricks et al., 2020) y DataCite (Brase, 2009). En junio de 2023, este conjunto de datos de OpenAIRE constaba de 232.174.001 productos de investigación[4]. El proceso de deduplicación implementado por OpenAIRE tiene en cuenta no solo los PID sino también otras heurísticas, como el número de autores y la distancia Levenstein de los títulos. Sin embargo, los identificadores internos que OpenAIRE asocia con las entidades no son persistentes y pueden cambiar cuando se actualizan los datos. Se puede acceder a los datos de OpenAIRE Research Graph a través de una API y la interfaz Explore. Los volcados también están disponibles bajo una licencia internacional Creative Commons Attribution 4.0.


Semantic Scholar fue introducido por el Instituto Allen de Inteligencia Artificial en 2015 (Fricke, 2018). Es un motor de búsqueda que utiliza inteligencia artificial para seleccionar sólo los artículos más relevantes para la búsqueda del usuario y simplificar la exploración, por ejemplo, produciendo resúmenes automáticos. Semantic Scholar obtiene su contenido a través de indexación web y asociaciones con revistas científicas, índices y proveedores de contenido. Entre ellos se encuentran la Asociación de Lingüística Computacional, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL y PubMed. A junio de 2023, indexa 212.605.886 trabajos académicos[5]. Los autores se eliminan la ambigüedad mediante un modelo de inteligencia artificial (Subramanian et al., 2021), asociado con un Semantic Scholar ID, y se genera automáticamente una página para cada autor, que la persona real puede canjear. Semantic Scholar proporciona una interfaz web, API y el conjunto de datos completo se puede descargar bajo la licencia Open Data Commons Attribution (ODCBy) v1.0.


Wikidata fue introducido en 2012 por Wikimedia Deutschland como una base de conocimiento abierta para almacenar en RDF datos de otros proyectos de Wikimedia, como Wikipedia, Wikivoyage, Wiktionary y Wikisource (Mora-Cantallops et al., 2019). Debido a su éxito, Google cerró Freebase en 2014, que pretendía convertirse en “Wikipedia para datos estructurados” y lo migró a Wikidata (Tanon et al., 2016). Desde 2016, el proyecto WikiCite ha contribuido significativamente a la evolución de Wikidata como base de datos bibliográfica, de modo que, en junio de 2023, Wikidata contenía descripciones de 39.864.447 artículos académicos[6]. El identificador interno de Wikidata que hace referencia a cualquier entidad (incluidos los recursos bibliográficos) está asociado con numerosos identificadores externos, por ejemplo, DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref funder ID, ZooBank y Twitter. Los datos se publican bajo una licencia CC0 como volcados RDF en Turtle y NTtriples. Los usuarios pueden navegar a través de SPARQL, una interfaz web y, a partir de 2017, a través de Scholia, un servicio web que realiza consultas SPARQL en tiempo real para generar perfiles sobre investigadores, organizaciones, revistas, editores, trabajos académicos y temas de investigación, al tiempo que genera infografías valiosas (Nielsen et al., 2017).


Mientras que OpenAIRE Research Graph y Wikidata agregan muchas fuentes heterogéneas, Springer Nature SciGraph (Hammond et al., 2017), por otro lado, agrega solo datos de Springer Nature y sus socios. Contiene entidades relativas a publicaciones, afiliaciones, proyectos de investigación, financiadores y conferencias, por un total de más de 14 millones de productos de investigación[7]. No existe un plan actual para ofrecer un punto final SPARQL público, pero existe la posibilidad de explorar los datos a través de una interfaz de navegador, y mensualmente se publica un volcado en formato JSON-LD bajo una licencia CC-BY.



BioTea también es un conjunto de datos orientado a dominios y representa el subconjunto de acceso abierto de texto completo anotado de PubMed Central (PMC-OA) (García et al., 2018) que utiliza tecnologías RDF. En el momento de ese artículo de 2018, el conjunto de datos contenía 1,5 millones de recursos bibliográficos. A diferencia de otros conjuntos de datos, BioTea describe metadatos y citas y define semánticamente los textos completos anotados. Se adopta el análisis de reconocimiento de entidades nombradas para identificar expresiones y terminología relacionadas con ontologías biomédicas que luego se registran como anotaciones (por ejemplo, sobre biomoléculas, medicamentos y enfermedades). Los datos de BioTea se publican como volcados en formatos RDF/XML y JSON-LD bajo la licencia Creative Commons Attribution Non-Commercial 4.0 International, mientras que el punto final SPARQL está actualmente fuera de línea.


Un enfoque digno de mención es el adoptado por el Open Research Knowledge Graph (ORKG) (Auer et al., 2020). Los metadatos son recopilados principalmente por agentes de confianza a través de crowdsourcing o automáticamente desde Crossref. Sin embargo, el objetivo principal de ORKG no es organizar metadatos sino proporcionar servicios. El alcance principal de estos servicios es realizar un análisis de comparación de literatura utilizando incrustaciones de palabras para permitir un análisis de similitud y fomentar la exploración y el vínculo de trabajos relacionados. Para permitir análisis tan sofisticados, los metadatos de Crossref son insuficientes; por lo tanto, para cada recurso se deben especificar manualmente anotaciones estructuradas sobre el tema, resultado, método, contexto educativo y evaluador. El conjunto de datos contiene (a junio de 2023) 25 680 artículos[8], 5153 conjuntos de datos, 1364 software y 71 revisiones. Dada la importancia de la contribución humana a la creación del conjunto de datos ORKG, la plataforma realiza un seguimiento de los cambios y la procedencia, aunque no en formato RDF. Los datos se pueden explorar a través de una interfaz web, SPARQL y una API, y también se pueden descargar bajo una licencia CC BY-SA.


ScholarlyData recopila información únicamente sobre conferencias y talleres sobre el tema de la Web Semántica (Nuzzolese et al., 2016). Los datos se modelan siguiendo la Ontología de la Conferencia, que describe entidades típicas en una conferencia académica, como los artículos aceptados, los autores, sus afiliaciones y el comité organizador, pero no las referencias bibliográficas. Hasta junio de 2023, el conjunto de datos almacenó información sobre 5678 artículos de conferencias. Dicho conjunto de datos se actualiza empleando el software generador Conference Linked Open Data, que genera RDF a partir de archivos CSV (Gentile & Nuzzolese, 2015). La deduplicación de los agentes se basa únicamente en sus URI mediante un método de clasificación supervisada (Zhang et al., 2017), mientras que los ORCID se añaden en un paso posterior. Esta metodología no aborda la existencia de homónimos. Sin embargo, este es un problema menor para ScholarlyData, ya que sólo unos pocos miles de personas participan en las conferencias que se indexan. ScholarlyData se puede explorar a través de un punto final SPARQL y los volcados están disponibles en formato RDF/XML bajo una licencia Creative Commons Attribution 3.0 Unported.


Para concluir, nos gustaría señalar que ninguno de estos otros conjuntos de datos mencionados anteriormente expone datos de seguimiento de cambios y la información de procedencia relacionada en RDF.


La Tabla 1 resume todas las consideraciones realizadas en cada conjunto de datos.


Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.


[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://scholia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers