«Яндекс» обучил нейросети расшифровывать рукописи с дореформенной орфографией
Компания занялась расшифровкой архивных документов с помощью алгоритма оптического распознавания символов. Он учитывает особенности почерка, буквы дореволюционной орфографии («ять», «ер» и другие), а также понимает структуру записей.
- Функция «Поиск по архивам» позволяет прочитать более 2,5 млн страниц документов с текстовой расшифровкой.
- Для удобства поиска доступны фильтры по годам, архивам, фондам и описям. Рядом со сканом документа отображается построчная расшифровка.
- Нейросети обучали на сотнях тысяч рукописных строк из текстов XVII–XIX веков. Благодаря искусственному интеллекту с трудом читаемый текст почти мгновенно превращается в печатный документ.
- Главархив Москвы стал первым фондом, представленным в сервисе. Именно по его материалам обучался ИИ.
- В будущем база доступных отсканированных хранилищ и файлов расширится.