Архив Интернета публикует Refcat, индекс IA Scholar, содержащий более 1,3 млрд научных ссылок

shukla7789 · Post by **shukla7789** » Wed Jul 09, 2025 5:20 am

В рамках наших постоянных усилий по архивированию и предоставлению постоянного доступа к открытым научным материалам, находящимся в зоне риска, мы выпустили Refcat («ссылка» + «каталог») – индекс цитирования, составленный на основе каталога, лежащего в основе нашего сервиса IA Scholar для поиска научной литературы и исследовательских результатов в Internet Archive. Этот первый выпуск набора данных Refcat содержит более 1,3 миллиарда ссылок, извлеченных из более чем 60 миллионов записей метаданных и более 120 миллионов научных артефактов (статей, книг, наборов данных, трудов конференций, кода и т. д.), которые IA Scholar архивирует посредством веб-сбора данных, оцифровки, интеграции с другими открытыми службами знаний, а также в рамках партнерств и совместных инициатив.

Refcat представляет собой один из Список телефонных номеров наборов данных графов цитирования научной литературы, а также содержит значительную часть ссылок на работы без DOI или постоянного идентификатора. Мы надеемся, что этот набор данных станет ценным ресурсом для сообщества наряду с другими важными проектами графов знаний, включая те, с которыми мы сотрудничаем, такими как OpenCitations и Wikicite .

Набор данных Refcat выпущен под лицензией CC0 и доступен для скачивания с сайта archive.org . Соответствующее программное обеспечение, разработанное для извлечения и сопоставления данных, включая точное и нечёткое сопоставление цитирований ( refcat и fuzzycat ), также доступно в виде инструментов с открытым исходным кодом. Для тех, кто интересуется техническими подробностями проекта, на сайте arxiv.org доступен официальный документ , подготовленный инженерами IA, включая Мартина Чигана, который руководил разработкой Refcat, а также описание в нашем руководстве пользователя каталога .

Что означает Refcat для постоянных пользователей IA Scholar? Refcat — это результат работы по обеспечению взаимосвязи между материалами IA Scholar и другими ресурсами, заархивированными в Internet Archive, для упрощения просмотра и поиска, а также для обеспечения общей целостности и сохранности цитирования. Например, в цитированиях Refcat содержится более 25 миллионов веб-ссылок, и нам удалось сопоставить около 14 миллионов из них с архивными веб-страницами в Wayback Machine , а также обнаружить, что около 18% этих совпавших веб-ссылок больше не доступны в активном интернете. Веб-ссылки в цитированиях, отсутствующих в Wayback Machine, были добавлены в текущие веб-сборы. Мы также сопоставили более 20 миллионов цитирований с книгами, доступными для выдачи в нашей службе Open Library , и сопоставили более 1 миллиона цитирований со статьями в Википедии .