В Новгороде создали систему для автоматического распознавания текстов берестяных грамот
Систему искусственного интеллекта для автоматического распознавания и интерпретации текстов средневековых грамот разработали в НовГУ. Разработка попала в число лидеров грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На реализацию проекта выделен 1 млн рублей.
- Специфика древнерусских символов значительно осложняет их распознавание. Между тем только в Великом Новгороде уже нашли более 1200 берестяных грамот.
- Автоматических решений для расшифровки подобных текстов пока нет. Аналоги недостаточно точны либо нестабильны или требуют больших, размеченных вручную датасетов. Разработка НовГУ должна решить эту задачу.
- Новую нейросеть обучали на пяти «эталонных» грамотах. Буквы на них разметили вручную. В датасет также вошли автоматические вырезки букв, сделанные детектором.
- Детектор обнаруживает и объединяет боксы вокруг букв. Модель не может принять полную грамоту и сразу дать расшифровку, поэтому ей надо предлагать буквы по отдельности, после собирая их в строки. Затем идут сегментация, поиск контуров, объединение соседних боксов по дистанции, соотношение площадей. Для распознавания применяется сверточная сеть ResNet-18, адаптированная под вырезки 64х64 пикселя. Все вырезки букв сохраняются в PNG-файлах.
- Уже разработано приложение: оно позволяет загружать фото, автоматически детектировать боксы, распознавать буквы и экспортировать полученные результаты.
- Полный прогон одного изображения занимает до 2 секунд. После всех корректировок точность распознавания составляет 98%. Система уже готова к интеграции в архивные и научные проекты по изучению древнерусских текстов. Модель, обученная на грамотах, хорошо работает и с рукописями.

Большинство берестяных грамот нашли именно на Новгородской земле — это связанно с так называемым мокрым слоем в почве, он хорошо сохраняет органику. Древние славяне часто использовали бересту для письма — она была более доступна, чем пергамент.