paint-brush
Мета OpenCitations: Связанные работык@categorize

Мета OpenCitations: Связанные работы

Слишком долго; Читать

featured image - Мета OpenCitations: Связанные работы
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Авторы:

(1) Арканджело Массари, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия {[email protected]};

(2) Фабио Мариани, Институт философии и искусств, Университет Леуфана, Люнебург, Германия {[email protected]};

(3) Иван Хейби, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(4) Сильвио Перони, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(5) Дэвид Шоттон, Оксфордский центр электронных исследований, Оксфордский университет, Оксфорд, Великобритания {[email protected]}.

Таблица ссылок

2. Сопутствующие работы

В этом разделе мы рассмотрим наиболее важные наборы данных научных публикаций, доступ к которым не требует подписки, то есть общедоступные наборы данных, содержащие научные библиографические метаданные. Поскольку OpenCitations Meta использует технологии Semantic Web для представления данных, особое внимание будет уделено наборам данных RDF, а именно Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph и Scholarly Data. Кроме того, будут описаны OpenAIRE Research Graph, OpenAlex и Scholarly Data, поскольку они являются наиболее обширными наборами данных по количеству работ, хотя и не представляют данные семантически.


OpenAlex (Priem et al., 2022) восстал из пепла Microsoft Academic Graph 1 января 2022 года и унаследовал все его метаданные. Он включает данные Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Дхакал, 2019 г.), arXiv (Сигурдссон, 2020 г.), Zenodo (Research & OpenAIRE, 2013 г.), Международный центр ISSN[1] и Общий указатель Интернет-архива[2]. Кроме того, веб-сканирование используется для добавления недостающих метаданных. OpenAlex, насчитывающий более 240 миллионов работ[3], представляет собой самый обширный набор библиографических метаданных на сегодняшний день. OpenAlex присваивает каждому ресурсу постоянные идентификаторы. Кроме того, авторы устраняются с помощью эвристики, основанной на соавторах, цитатах и других особенностях библиографических ресурсов. Данные распространяются по лицензии CC0, и доступ к ним можно получить через API, веб-интерфейс или загрузив полную копию базы данных OpenAlex.


Проект OpenAIRE стартовал в 2008 году для поддержки принятия мандатов Европейской комиссии по открытому доступу (Manghi et al., 2010), и в настоящее время он является ведущей организацией в рамках программы исследований и инноваций Horizon 2020 по реализации Европейского облака открытой науки (Европейское облако открытой науки). Комиссия Генерального директората по исследованиям и инновациям., 2016). Одним из его основных результатов является график исследований OpenAIRE, который включает метаданные о научных результатах (например, литературе, наборах данных и программном обеспечении), организациях, спонсорах исследований, потоках финансирования, проектах и сообществах, а также информацию о происхождении. Данные собираются из различных источников (Атзори и др., 2017 г.): архивов, например ArXiv (Сигурдссон, 2020 г.), Europe PMC (The Europe PMC Consortium, 2015 г.), Software Heritage (Abramatic et al., 2018 г.) и Zenodo ( Исследования и OpenAIRE, 2013); сервисы-агрегаторы, например DOAJ (Моррисон, 2017 г.) и OpenCitations (Перони и Шоттон, 2020 г.); и другие графики исследований, например Crossref (Hendricks et al., 2020) и DataCite (Brase, 2009). По состоянию на июнь 2023 года этот набор данных OpenAIRE состоял из 232 174 001 исследовательского продукта[4]. Процесс дедупликации, реализованный OpenAIRE, учитывает не только PID, но и другие эвристики, такие как количество авторов и расстояние между названиями Левенштейна. Однако внутренние идентификаторы, которые OpenAIRE связывает с объектами, не являются постоянными и могут меняться при обновлении данных. Доступ к данным OpenAIRE Research Graph можно получить через API и интерфейс Explore. Дампы также доступны по международной лицензии Creative Commons Attribution 4.0.


Semantic Scholar был представлен Институтом искусственного интеллекта Аллена в 2015 году (Fricke, 2018). Это поисковая система, которая использует искусственный интеллект для отбора только статей, наиболее релевантных поиску пользователя, и для упрощения поиска, например, путем создания автоматических сводок. Semantic Scholar получает свой контент посредством веб-индексации и партнерства с научными журналами, индексами и поставщиками контента. Среди них Ассоциация компьютерной лингвистики, издательство Кембриджского университета, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL и PubMed. По состоянию на июнь 2023 года он индексирует 212 605 886 научных работ[5]. Авторы устраняются с помощью модели искусственного интеллекта (Subramanian et al., 2021), связанной с идентификатором семантического ученого, и для каждого автора автоматически создается страница, которую реальный человек может использовать. Semantic Scholar предоставляет веб-интерфейс, API, а полный набор данных можно загрузить по лицензии Open Data Commons Attribution License (ODCBy) v1.0.


Wikidata была представлена Wikimedia Deutschland в 2012 году как открытая база знаний для хранения в формате RDF данных из других проектов Wikimedia, таких как Wikipedia, Wikivoyage, Wiktionary и Wikisource (Mora-Cantallops et al., 2019). Благодаря своему успеху в 2014 году Google закрыла Freebase, которая должна была стать «Википедией для структурированных данных», и перенесла ее в Wikidata (Tanon et al., 2016). С 2016 года проект WikiCite внес значительный вклад в развитие Викиданных как библиографической базы данных: к июню 2023 года Викиданные содержали описания 39 864 447 научных статей[6]. Внутренний идентификатор Викиданных, относящийся к любому объекту (включая библиографические ресурсы), связан с многочисленными внешними идентификаторами, например, DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, идентификатор спонсора Crossref, ZooBank и Twitter. Данные публикуются по лицензии CC0 в виде дампов RDF в Turtle и NTriples. Пользователи могут просматривать их через SPARQL, веб-интерфейс, а с 2017 года через Scholia — веб-сервис, который выполняет запросы SPARQL в режиме реального времени для создания профилей исследователей, организаций, журналов, издателей, научных работ и тем исследований, а также генерирует ценная инфографика (Nielsen et al., 2017).


В то время как OpenAIRE Research Graph и Wikidata агрегируют множество разнородных источников, Springer Nature SciGraph (Hammond et al., 2017), с другой стороны, агрегирует только данные Springer Nature и ее партнеров. В него входят организации, связанные с публикациями, филиалами, исследовательскими проектами, спонсорами и конференциями, всего более 14 миллионов исследовательских продуктов[7]. В настоящее время не планируется предлагать общедоступную конечную точку SPARQL, но существует возможность исследовать данные через интерфейс браузера, а дамп выпускается ежемесячно в формате JSON-LD по лицензии CC-BY.



BioTea также представляет собой предметно-ориентированный набор данных и представляет собой аннотированное полнотекстовое подмножество открытого доступа PubMed Central (PMC-OA) (Garcia et al., 2018) с использованием технологий RDF. На момент публикации этой статьи в 2018 году набор данных содержал 1,5 миллиона библиографических ресурсов. В отличие от других наборов данных, BioTea описывает метаданные и цитаты, а также семантически определяет аннотированные полные тексты. Анализ распознавания именованных объектов применяется для идентификации выражений и терминологии, относящихся к биомедицинским онтологиям, которые затем записываются в виде аннотаций (например, о биомолекулах, лекарствах и болезнях). Данные BioTea публикуются в виде дампов в форматах RDF/XML и JSON-LD в соответствии с лицензией Creative Commons Attribution Non-Commercial 4.0 International, а конечная точка SPARQL в настоящее время отключена.


Примечательным является подход, принятый Open Research Knowledge Graph (ORKG) (Auer et al., 2020). Метаданные в основном собираются либо доверенными агентами посредством краудсорсинга, либо автоматически из Crossref. Однако основная цель ORKG — не организация метаданных, а предоставление услуг. Основной задачей этих услуг является проведение сравнительного анализа литературы с использованием встраивания слов, чтобы обеспечить анализ сходства и способствовать исследованию и связыванию связанных работ. Для проведения такого сложного анализа метаданных Crossref недостаточно; поэтому для каждого ресурса необходимо вручную указать структурированные аннотации по теме, результату, методу, образовательному контексту и оценщику. Набор данных содержит (по состоянию на июнь 2023 г.) 25 680 статей[8], 5153 набора данных, 1364 программного обеспечения и 71 обзор. Учитывая важность человеческого вклада в создание набора данных ORKG, платформа отслеживает изменения и происхождение, хотя и не в формате RDF. Данные можно просматривать через веб-интерфейс, SPARQL и API, а также загружать по лицензии CC BY-SA.


ScholarlyData собирает информацию только о конференциях и семинарах по теме семантической сети (Nuzzolese et al., 2016). Данные моделируются в соответствии с онтологией конференции, которая описывает типичные объекты научной конференции, такие как принятые статьи, авторы, их принадлежность и организационный комитет, но не библиографические ссылки. До июня 2023 года в наборе данных хранилась информация о 5678 докладах конференций. Такой набор данных обновляется с помощью программного обеспечения-генератора открытых данных Conference Linked, которое выводит RDF, начиная с файлов CSV (Gentile & Nuzzolese, 2015). Дедупликация агентов основана только на их URI с использованием контролируемого метода классификации (Zhang et al., 2017), а ORCID добавляются на следующем этапе. Эта методология не учитывает существование омонимов. Однако для ScholarlyData это незначительная проблема, поскольку в индексируемых конференциях участвуют всего несколько тысяч человек. ScholarlyData можно просмотреть через конечную точку SPARQL, а дампы доступны в формате RDF/XML по лицензии Creative Commons Attribution 3.0 Unported.


В заключение мы хотели бы отметить, что ни один из этих других наборов данных, упомянутых выше, не предоставляет данные отслеживания изменений и соответствующую информацию о происхождении в RDF.


В таблице 1 суммированы все соображения, высказанные по каждому набору данных.


Этот документ доступен на arxiv под лицензией CC 4.0 DEED.


[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://scholia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers