Цифровой архив «Отечественных записок»: прогресс проекта-победителя конкурса микрогрантов «Инфокультуры»

В марте проект по оцифровке знакового русского «учено-литературного» журнала XIX века «Отечественные записки» получил грант «Инфокультуры». Команда проекта рассказала, что получилось сделать благодаря гранту и что еще предстоит.

журнал отечественные записки

Проект по оцифровке журнала «Отечественные записки» (1814 – 1884) стартовал в октябре 2019 года как совместное начинание Центра цифровых гуманитарных исследований НИУ ВШЭ и магистратуры «Цифровые методы в гуманитарных науках».

С чем предстояло работать

«Отечественные записки» — важный источник для историков, филологов, исследователей общественных процессов и историков культуры, а также ценный для лингвистов памятник языка XIX века. На страницах журнала с 1818 по 1884 гг. публиковали свои произведения В. А. Жуковский, В. Ф. Одоевский, В. Г. Белинский, М. А. Бакунин, А. И. Герцен, Н. А. Некрасов, М. Ф. Салтыков-Щедрин, А. С. Островский, Ф. М. Достоевский, Л. Н. Толстой. Также там публиковались отчеты о путешествиях, экономические и политические статьи, антропологические заметки с окраин Российской империи, хозяйственные и деловые рекомендации, развлекательно-юмористические материалы.

«Отечественные записки» — классический русский «толстый журнал». Один выпуск журнала насчитывает от 800 до 1100 страниц. Всего выпусков свыше 250 — то есть речь идет об оцифровке сотен тысяч страниц текста.

Что было сделано

После получения гранта команда проекта привлекла для вычитки 25 человек и организовала их работу. В результате на данный момент вычитано после распознавания уже более 30 000 страниц журнала. 6 томов журнала вычитаны полностью, остальные — частично. Всего оцифровано и находятся на разной стадии очистки 63 тома.

технологический процесс проекта на сегодня
Технологический процесс проекта на сегодня

Благодаря грантовой поддержке команда смогла высвободить ресурсы для разработки технологических инструментов. Участниками команды были разработаны программные инструменты для перевода вычитанных документов в проприетарном формате MS Word — в свободный человеко- и машиночитаемый формат TEI/XML, который является международным стандартом цифрового сохранения гуманитарных данных. Также был доработан и применен инструмент для перевода, подготовленный ранее коллегами из школы лингвистики НИУ ВШЭ. В результате сейчас тома последовательно проходят несколько степеней очистки и нормализации:
• Первичная оцифровка (пример файла)
• Вычитка
• Перевод в TEI/XML (пример файла)
• Нормализация орфографии в формате TEI/XML (пример файла)

Одновременно была проделана работа по прототипированию веб-сервиса, который будет выполнять функцию пользовательского интерфейса для подготавливаемого корпуса. С прототипом веб-сервиса можно познакомиться по ссылке.

прототип веб-интерфейса к корпусу
Прототип веб-интерфейса к корпусу «Отечественных записок»

Что дальше

Команда цифрового архива «Отечественных записок» продолжает работу по оцифровке, подготовке инструментов нормализации и очистки файлов. Вскоре в пайплайн будет встроен код для исправления частотных ошибок OCR. Основные же усилия направлены на разработку веб-версии архива.

обновленный технологический процесс проекта
Обновленный технологический процесс проекта

Команда цифрового архива «Отечественных записок» выражает благодарность АНО «Инфокультура» за поддержку проекта.

Источник публикации: https://hum.hse.ru/digital/news/374746005.html