Главархив Москвы / Росархив — нейросеть распознавания рукописей («Поиск по архивам»)
Описание проекта
В январе 2023 года Главархив Москвы совместно с Яндексом запустил сервис «Поиск по архивам» — первый в России публичный инструмент полнотекстового поиска по оцифрованным рукописным историческим документам XVII–XIX веков. Нейросеть обучена распознавать дореформенный русский язык, скорописные почерки и делопроизводственные формуляры метрических книг, ревизских сказок, исповедальных ведомостей.
Сервис позволяет пользователям вводить поисковый запрос (имена, топонимы, даты) и получать результаты из оцифрованных архивных дел — без необходимости вручную листать тысячи страниц. В рамках проекта организованы краудсорсинговые сессии, где добровольцы верифицируют распознанный текст, повышая точность модели.
По данным на январь 2024 года, проект охватывал 11 регионов России; количество проиндексированных страниц превысило 10 млн, число просмотров за год составило свыше 20 млн. Росархив рассматривает опыт как модель для тиражирования на федеральные архивные фонды в рамках цифровой трансформации архивного дела 2024–2026.
Задача
Российские архивы хранят миллиарды страниц рукописных документов, недоступных для полнотекстового поиска. Генеалогические, исторические и документоведческие запросы требуют физического просмотра тысяч дел. Классические OCR-системы не справляются с дореформенной орфографией и скорописью XIX века, что делало массовую индексацию практически невозможной.
Цели внедрения
-
Обеспечить гражданам онлайн-доступ к историческим архивным документам с полнотекстовым поиском
-
Ускорить обработку генеалогических запросов и научных исследований
-
Создать масштабируемую платформу для тиражирования на архивы других регионов и федеральные фонды
-
Повысить точность распознавания рукописного текста XVIII–XIX вв. за счёт краудсорсинга
Результаты
-
Финансы
-
Точная стоимость проекта публично не раскрыта; финансирование — в рамках соглашения Главархива Москвы с Яндексом Время
-
С января 2023 по январь 2024 проиндексировано более 10 млн страниц рукописных документов
-
Поиск нужных записей сократился с нескольких дней (ручной просмотр) до нескольких секунд Качество и эффективность
-
Более 20 млн просмотров за первый год работы сервиса
-
Около 60 тыс. рукописных дел обработано; более 492 млн строк текста проанализировано
-
Из фондов Главархива Москвы оцифровано и проиндексировано более 5,4 млн страниц Нагрузка и масштаб
-
Охват: 11 регионов России (к январю 2024)
-
Сервис работает в публичном доступе 24/7; пользователи — граждане, историки, архивисты Надёжность
-
Краудсорсинговая верификация повышает точность модели итерационно Импортозамещение и compliance
-
Отечественная нейросетевая разработка Яндекса; хранение данных — на российской инфраструктуре
-
Опыт Главархива транслируется на федеральный уровень: Росархив включил машиночитаемые форматы и HTR в программу цифровой трансформации архивного дела 2024–2026 Качественный эффект: Создан первый в России публичный поисковый сервис по историческим рукописям; стандарт тиражируется в регионах.