Распознавание структурных элементов рукописного текста на основе интеллектуального анализа изображений

АБB
АБB
АБB

Обычная версия сайта

Автограф. Электронный архив

Подробно

Публикации

Книга

Ж.Барбе д'Оревийи. "Старая любовница"
В печати

Ладомир, 2026.

Статья

Эхо убийства Коцебу: образ Бакалавра в трагедии Гете «Фауст. Часть 2» как демоническая маска эпохи
В печати

Лагутина И. Н.

Литературный факт. 2026. № 3.

Глава в книге

"Околдованная" - перевод и научный комментарий
В печати

Сабашникова А. А.

В кн.: Ж.Барбе д'Оревийи. "Старая любовница". Ладомир, 2026.

Препринт

Linguistic Landscape of Orenburg Oblast

Kuznetsov Egor.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 113.

Все публикации

Статус: текущий проект (2016-2017)

Исполнители: Е.Н. Пенская, совместно с РГАЛИ, ГАРФ, ГЛМ, ВМК МГУ

Аннотация проекта:

В музеях, архивах, институтах и библиотеках России находится значительный корпус не исследованных и не введенных в широкий научных оборот рукописных текстов. Особую актуальность это приобретает по отношению к литературным памятникам XIX – ХХ вв., более 80% которых до настоящего времени не опубликовано. Расшифровка этих источников крайне затруднена, и, за редким исключением, они остаются вне внимания исследователей и читателей.В последнее десятилетие хранение архивных документов осуществляется в том числе в виде электронных копий, что создает предпосылки для автоматизированной обработки информации.Тем не менее, цифровое изображение страницы делает невозможным основные виды работ с информацией (аннотирование, поиск элементов текста, цитирование) без предварительной обработки. Поэтому большое значение при работе с источниками приобретают методики и соответствующие им технологии, формализующие и облегчающие выполнение рутинных операций по распознаванию, индексированию и поиску структурных элементов текста.В рамках проекта будет создана система автоматизированного анализа электронной версииисточника, предоставляющая информацию о составе и полноте документа, датировке,количестве, стиле и жанре записей и их расположении на странице. Более того, локализацияструктурных элементов позволит уточнить практику цитирования рукописного источника, при которой единицей цитирования и визуализации станет не страница, а сегмент текста – абзац или строка. Историк получит возможность изучить фактографию, статистик – обработать новые данные, текстолог – сопоставить варианты произведений и поэтапно восстановить историю текста, лингвист – изучить поэтический словарь и процесс формирования языка, литературовед – познакомиться с записями, относящимися к биографии писателя. Подобная формализация рукописного текста предполагает определение высокоуровневых (семантических) структурных элементов через низкоуровневые (графические, позиционные и метрические элементы: количество и длина строки, взаиморасположение строк на странице и т.п.). Важным фактором, позволяющим проводить исследования на современном мировом уровне, станет адаптация международного стандарта семантической классификации текста TEI (Text Encoding Initiative, 2011) к особенностям рукописных текстов, имеющим свою графику и характерные приемы структурирования информации. Разработка и апробация проекта будет проведена на неопубликованных рукописных материалах классиков русской литературы XIX – ХХ вв., имеющих четкую организацию текстового массива (письмах, дневниковых записях, рабочих тетрадях), находящихся в архивах России. Таким образом, будет создан инструмент, позволяющий включить рукописные тексты в электронный корпус всемирного культурного наследия. Существенным достоинством исследования станет междисциплинарный подход к проблеме: ряд задач будет решен методами гуманитарных наук (компонентный анализ, графическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, кластеризация, анализ связей). В связи с этим к участию в проекте привлечены ведущие филологи, специалисты по источниковедению и текстологии, и математики, работающие в области искусственного интеллекта и распознавания образов.

В результате проекта будет разработана программная система распознавания структурных элементов рукописного текста. Система будет адаптирована для использования в научных центрах, пройдет апробацию в архивах и рукописных отделах музеев, библиотек и научных институтов. Для демонстрации результатов проекта будет создан специальный двуязычный сайт (русский/английский), где ученые смогут познакомиться с автоматизированными методами исследования текста и самостоятельно провести работу с рукописными источниками. Будет опубликован цикл из 6 аналитических исследований в ведущих отечественных и зарубежных журналах, входящих в системы цитирования WOS и Scopus. Результаты исследования будут представлены на трех международных научных конференциях.