Архив Интернета публикует Refcat, индекс IA Scholar, содержащий более 1,3 млрд научных ссылок

Discuss my database trends and their role in business.
Post Reply
shukla7789
Posts: 1109
Joined: Tue Dec 24, 2024 4:28 am

Архив Интернета публикует Refcat, индекс IA Scholar, содержащий более 1,3 млрд научных ссылок

Post by shukla7789 »

В рамках наших постоянных усилий по архивированию и предоставлению постоянного доступа к открытым научным материалам, находящимся в зоне риска, мы выпустили Refcat («ссылка» + «каталог») – индекс цитирования, составленный на основе каталога, лежащего в основе нашего сервиса IA ​​Scholar для поиска научной литературы и исследовательских результатов в Internet Archive. Этот первый выпуск набора данных Refcat содержит более 1,3 миллиарда ссылок, извлеченных из более чем 60 миллионов записей метаданных и более 120 миллионов научных артефактов (статей, книг, наборов данных, трудов конференций, кода и т. д.), которые IA Scholar архивирует посредством веб-сбора данных, оцифровки, интеграции с другими открытыми службами знаний, а также в рамках партнерств и совместных инициатив.

Refcat представляет собой один из Список телефонных номеров наборов данных графов цитирования научной литературы, а также содержит значительную часть ссылок на работы без DOI или постоянного идентификатора. Мы надеемся, что этот набор данных станет ценным ресурсом для сообщества наряду с другими важными проектами графов знаний, включая те, с которыми мы сотрудничаем, такими как OpenCitations и Wikicite .

Набор данных Refcat выпущен под лицензией CC0 и доступен для скачивания с сайта archive.org . Соответствующее программное обеспечение, разработанное для извлечения и сопоставления данных, включая точное и нечёткое сопоставление цитирований ( refcat и fuzzycat ), также доступно в виде инструментов с открытым исходным кодом. Для тех, кто интересуется техническими подробностями проекта, на сайте arxiv.org доступен официальный документ , подготовленный инженерами IA, включая Мартина Чигана, который руководил разработкой Refcat, а также описание в нашем руководстве пользователя каталога .

Что означает Refcat для постоянных пользователей IA Scholar? Refcat — это результат работы по обеспечению взаимосвязи между материалами IA Scholar и другими ресурсами, заархивированными в Internet Archive, для упрощения просмотра и поиска, а также для обеспечения общей целостности и сохранности цитирования. Например, в цитированиях Refcat содержится более 25 миллионов веб-ссылок, и нам удалось сопоставить около 14 миллионов из них с архивными веб-страницами в Wayback Machine , а также обнаружить, что около 18% этих совпавших веб-ссылок больше не доступны в активном интернете. Веб-ссылки в цитированиях, отсутствующих в Wayback Machine, были добавлены в текущие веб-сборы. Мы также сопоставили более 20 миллионов цитирований с книгами, доступными для выдачи в нашей службе Open Library , и сопоставили более 1 миллиона цитирований со статьями в Википедии .
Post Reply