Autoren:
(1) Arcangelo Massari, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(2) Fabio Mariani, Institut für Philosophie und Kunstwissenschaften, Leuphana Universität, Lüneburg, Deutschland {[email protected]};
(3) Ivan Heibi, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(4) Silvio Peroni, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(5) David Shotton, Oxford e-Research Centre, University of Oxford, Oxford, Vereinigtes Königreich {[email protected]}.
In diesem Abschnitt werden wir die wichtigsten wissenschaftlichen Publikationsdatensätze überprüfen, für deren Zugriff kein Abonnement erforderlich ist, d. h. öffentlich verfügbare Datensätze, die wissenschaftliche bibliografische Metadaten enthalten. Da OpenCitations Meta zur Darstellung von Daten Technologien des Semantic Web verwendet, wird besonderes Augenmerk auf RDF-Datensätze gelegt, nämlich Wikidata, Springer Nature SciGraph, BioTea, den OpenResearch Knowledge Graph und Scholarly Data. Darüber hinaus werden der OpenAIRE Research Graph, OpenAlex und Scholarly Data beschrieben, da sie in Bezug auf die Anzahl der Werke die umfangreichsten Datensätze sind, obwohl sie Daten nicht semantisch darstellen.
OpenAlex (Priem et al., 2022) erhob sich am 1. Januar 2022 aus der Asche des Microsoft Academic Graph und übernahm alle Metadaten. Es enthält Daten von Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall (Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), dem ISSN International Centre[1] und dem General Index des Internetarchivs[2]. Darüber hinaus werden Web-Crawls verwendet, um fehlende Metadaten hinzuzufügen. Mit über 240 Millionen Werken[3] ist OpenAlex der bislang umfangreichste bibliografische Metadaten-Datensatz. OpenAlex weist jeder Ressource dauerhafte Kennungen zu. Darüber hinaus werden Autoren durch Heuristiken auf der Grundlage von Co-Autoren, Zitaten und anderen Merkmalen der bibliographischen Ressourcen eindeutig identifiziert. Die Daten werden unter einer CC0-Lizenz verteilt und können über API, Weboberfläche oder durch Herunterladen einer vollständigen Snapshot-Kopie der OpenAlex-Datenbank abgerufen werden.
Das OpenAIRE-Projekt wurde 2008 ins Leben gerufen, um die Annahme der Open-Access-Mandate der Europäischen Kommission zu unterstützen (Manghi et al., 2010). Heute ist es die Vorzeigeorganisation im Forschungs- und Innovationsprogramm Horizont 2020 zur Realisierung der European Open Science Cloud (Europäische Kommission, Generaldirektion Forschung und Innovation, 2016). Eines seiner wichtigsten Ergebnisse ist der OpenAIRE Research Graph, der Metadaten zu wissenschaftlichen Ergebnissen (z. B. Literatur, Datensätze und Software), Organisationen, Forschungsförderern, Finanzierungsströmen, Projekten und Communities sowie Herkunftsinformationen enthält. Die Daten stammen aus verschiedenen Quellen (Atzori et al., 2017): Archiven, z. B. ArXiv (Sigurdsson, 2020), Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic et al., 2018) und Zenodo (Research & OpenAIRE, 2013); Aggregatordienste, z. B. DOAJ (Morrison, 2017) und OpenCitations (Peroni & Shotton, 2020); und andere Forschungsgraphen, z. B. Crossref (Hendricks et al., 2020) und DataCite (Brase, 2009). Im Juni 2023 bestand dieser OpenAIRE-Datensatz aus 232.174.001 Forschungsprodukten[4]. Der von OpenAIRE implementierte Deduplizierungsprozess berücksichtigt nicht nur PIDs, sondern auch andere Heuristiken, wie die Anzahl der Autoren und die Levenstein-Distanz von Titeln. Die internen Kennungen, die OpenAIRE mit Entitäten verknüpft, sind jedoch nicht persistent und können sich ändern, wenn die Daten aktualisiert werden. Auf die Daten des OpenAIRE Research Graph kann über eine API und die Explore-Schnittstelle zugegriffen werden. Dumps sind auch unter einer Creative Commons Attribution 4.0 International Licence verfügbar.
Semantic Scholar wurde 2015 vom Allen Institute for Artificial Intelligence eingeführt (Fricke, 2018). Es handelt sich um eine Suchmaschine, die künstliche Intelligenz nutzt, um nur die für die Suche des Benutzers relevantesten Artikel auszuwählen und die Suche zu vereinfachen, z. B. durch die Erstellung automatischer Zusammenfassungen. Semantic Scholar bezieht seine Inhalte über Webindizierung und Partnerschaften mit wissenschaftlichen Zeitschriften, Indizes und Inhaltsanbietern. Dazu gehören die Association for Computational Linguistics, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL und PubMed. Stand Juni 2023 indiziert es 212.605.886 wissenschaftliche Arbeiten[5]. Autoren werden über ein künstliches Intelligenzmodell (Subramanian et al., 2021) disambiguiert, mit einer Semantic Scholar-ID verknüpft und für jeden Autor wird automatisch eine Seite generiert, die die reale Person einlösen kann. Semantic Scholar bietet eine Weboberfläche und APIs und der vollständige Datensatz kann unter der Open Data Commons Attribution License (ODCBy) v1.0 heruntergeladen werden.
Wikidata wurde 2012 von Wikimedia Deutschland als offene Wissensdatenbank eingeführt, um Daten aus anderen Wikimedia-Projekten wie Wikipedia, Wikivoyage, Wiktionary und Wikisource in RDF zu speichern (Mora-Cantallops et al., 2019). Aufgrund seines Erfolgs schloss Google 2014 Freebase, das „Wikipedia für strukturierte Daten“ werden sollte, und migrierte es zu Wikidata (Tanon et al., 2016). Seit 2016 hat das WikiCite-Projekt erheblich zur Entwicklung von Wikidata als bibliografische Datenbank beigetragen, sodass Wikidata im Juni 2023 Beschreibungen von 39.864.447 wissenschaftlichen Artikeln enthielt[6]. Der interne Wikidata-Identifikator, der sich auf jede Entität (einschließlich bibliografischer Ressourcen) bezieht, ist mit zahlreichen externen Identifikatoren verknüpft, z. B. DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref-Funder-ID, ZooBank und Twitter. Die Daten werden unter einer CC0-Lizenz als RDF-Dumps in Turtle und NTriples veröffentlicht. Benutzer können sie über SPARQL, eine Weboberfläche und seit 2017 auch über Scholia durchsuchen – einen Webdienst, der SPARQL-Abfragen in Echtzeit durchführt, um Profile von Forschern, Organisationen, Zeitschriften, Verlagen, akademischen Arbeiten und Forschungsthemen zu erstellen und gleichzeitig wertvolle Infografiken zu generieren (Nielsen et al., 2017).
Während OpenAIRE Research Graph und Wikidata viele heterogene Quellen aggregieren, aggregiert Springer Nature SciGraph (Hammond et al., 2017) dagegen nur Daten von Springer Nature und seinen Partnern. Es enthält Entitäten zu Veröffentlichungen, Zugehörigkeiten, Forschungsprojekten, Förderern und Konferenzen, insgesamt mehr als 14 Millionen Forschungsprodukte[7]. Es gibt derzeit keine Pläne, einen öffentlichen SPARQL-Endpunkt anzubieten, aber es besteht die Möglichkeit, die Daten über eine Browseroberfläche zu erkunden, und monatlich wird ein Dump im JSON-LD-Format unter einer CC-BY-Lizenz veröffentlicht.
BioTea ist ebenfalls ein domänenorientierter Datensatz und stellt die kommentierte Volltext-Open-Access-Teilmenge von PubMed Central (PMC-OA) (Garcia et al., 2018) unter Verwendung von RDF-Technologien dar. Zum Zeitpunkt der Veröffentlichung dieses Dokuments aus dem Jahr 2018 enthielt der Datensatz 1,5 Millionen bibliografische Ressourcen. Im Gegensatz zu anderen Datensätzen beschreibt BioTea Metadaten und Zitate und definiert die kommentierten Volltexte semantisch. Die Named-Entity-Recognition-Analyse wird angewendet, um Ausdrücke und Terminologie im Zusammenhang mit biomedizinischen Ontologien zu identifizieren, die dann als Anmerkungen aufgezeichnet werden (z. B. über Biomoleküle, Medikamente und Krankheiten). BioTea-Daten werden als Dumps in den Formaten RDF/XML und JSON-LD unter der Lizenz Creative Commons Attribution Non-Commercial 4.0 International veröffentlicht, während der SPARQL-Endpunkt derzeit offline ist.
Ein bemerkenswerter Ansatz ist der des Open Research Knowledge Graph (ORKG) (Auer et al., 2020). Metadaten werden hauptsächlich entweder von vertrauenswürdigen Agenten über Crowdsourcing oder automatisch von Crossref gesammelt. Der Hauptzweck von ORKG besteht jedoch nicht darin, Metadaten zu organisieren, sondern Dienste bereitzustellen. Der Hauptzweck dieser Dienste besteht darin, eine Literaturvergleichsanalyse mithilfe von Wort-Embeddings durchzuführen, um eine Ähnlichkeitsanalyse zu ermöglichen und die Erforschung und Verknüpfung verwandter Werke zu fördern. Um solche anspruchsvollen Analysen zu ermöglichen, reichen Metadaten von Crossref nicht aus; daher müssen strukturierte Anmerkungen zu Thema, Ergebnis, Methode, Bildungskontext und Gutachter für jede Ressource manuell angegeben werden. Der Datensatz enthält (Stand: Juni 2023) 25.680 Artikel[8], 5153 Datensätze, 1364 Software und 71 Rezensionen. Angesichts der Bedeutung des menschlichen Beitrags zur Erstellung des ORKG-Datensatzes verfolgt die Plattform Änderungen und Herkunft, allerdings nicht im RDF-Format. Die Daten können über eine Weboberfläche, SPARQL und eine API erkundet und auch unter einer CC BY-SA-Lizenz heruntergeladen werden.
ScholarlyData sammelt nur Informationen über Konferenzen und Workshops zum Thema Semantic Web (Nuzzolese et al., 2016). Die Daten werden nach der Conference Ontology modelliert, die typische Entitäten einer akademischen Konferenz beschreibt, wie angenommene Beiträge, Autoren, ihre Zugehörigkeit und das Organisationskomitee, aber keine bibliographischen Referenzen. Bis Juni 2023 speicherte der Datensatz Informationen über 5678 Konferenzbeiträge. Ein solcher Datensatz wird durch den Einsatz der Conference Linked Open Data Generator-Software aktualisiert, die RDF ausgehend von CSV-Dateien ausgibt (Gentile & Nuzzolese, 2015). Die Deduplizierung der Agenten basiert nur auf ihren URIs unter Verwendung einer überwachten Klassifizierungsmethode (Zhang et al., 2017), während ORCIDs in einem weiteren Schritt hinzugefügt werden. Diese Methodik berücksichtigt nicht die Existenz von Homonymen. Dies ist jedoch ein kleines Problem für ScholarlyData, da nur einige Tausend Personen an den zu indizierenden Konferenzen beteiligt sind. ScholarlyData kann über einen SPARQL-Endpunkt erkundet werden und Dumps sind im RDF/XML-Format unter einer Creative Commons Attribution 3.0 Unported-Lizenz verfügbar.
Abschließend möchten wir darauf hinweisen, dass keiner der anderen oben genannten Datensätze Änderungsverfolgungsdaten und die zugehörigen Herkunftsinformationen in RDF bereitstellt.
Tabelle 1 fasst alle zu jedem Datensatz angestellten Überlegungen zusammen.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .
[1] https://www.issn.org/
[2] https://archive.org/details/GeneralIndex
[3] https://docs.openalex.org/api-entities/works
[4] https://explore.openaire.eu/search/find/research-outcomes
[5] https://www.semanticscholar.org/
[6] https://scholia.toolforge.org/statistics
[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/
[8] https://orkg.org/papers