Московские новости
  • Лента
  • Колумнисты
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино
  • Telegram
  • Дзен
  • VK
  • Контакты
  • Лента
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино

© Сетевое издание «Московские новости»

Свидетельство о регистрации СМИ сетевого издания «Московские новости» выдано федеральной сл ужбой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) 30.10.2014 года номер ЭЛ № ФС 77 — 59721.

Редакция «Московские новости»18+

  • Лента
  • Колумнисты
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино

Мы используем файлы cookie, чтобы все работало нормально. Мы верим, что даже в эру побеждающего киберпанка есть место для бережного подхода к данным и конфиденциальности пользователей. Подробности — в нашей Политике конфиденциальности.

pr@mn.ru

Культурный код,Технологии
Вчера, 11:35

В Новгороде создали систему для автоматического распознавания текстов берестяных грамот

Систему искусственного интеллекта для автоматического распознавания и интерпретации текстов средневековых грамот разработали в НовГУ. Разработка попала в число лидеров грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На реализацию проекта выделен 1 млн рублей.

  • Специфика древнерусских символов значительно осложняет их распознавание. Между тем только в Великом Новгороде уже нашли более 1200 берестяных грамот. 
  • Автоматических решений для расшифровки подобных текстов пока нет. Аналоги недостаточно точны либо нестабильны или требуют больших, размеченных вручную датасетов. Разработка НовГУ должна решить эту задачу.
  • Новую нейросеть обучали на пяти «эталонных» грамотах. Буквы на них разметили вручную. В датасет также вошли автоматические вырезки букв, сделанные детектором.
  • Детектор обнаруживает и объединяет боксы вокруг букв. Модель не может принять полную грамоту и сразу дать расшифровку, поэтому ей надо предлагать буквы по отдельности, после собирая их в строки. Затем идут сегментация, поиск контуров, объединение соседних боксов по дистанции, соотношение площадей. Для распознавания применяется сверточная сеть ResNet-18, адаптированная под вырезки 64х64 пикселя. Все вырезки букв сохраняются в PNG-файлах.
  • Уже разработано приложение: оно позволяет загружать фото, автоматически детектировать боксы, распознавать буквы и экспортировать полученные результаты.
  • Полный прогон одного изображения занимает до 2 секунд. После всех корректировок точность распознавания составляет 98%. Система уже готова к интеграции в архивные и научные проекты по изучению древнерусских текстов. Модель, обученная на грамотах, хорошо работает и с рукописями.
Берестяные грамоты
Фото: Пресс-служба НовГУ / Иван Филиппов

Большинство берестяных грамот нашли именно на Новгородской земле — это связанно с так называемым мокрым слоем в почве, он хорошо сохраняет органику. Древние славяне часто использовали бересту для письма — она была более доступна, чем пергамент.

Копировать ссылкуСкопировано