• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФКН
Контакты

руководитель школы —
Пенская Елена Наумовна

 

заместитель руководителя — Ровинская Мария Михайловна

 

заместитель руководителя — Павловец Михаил Георгиевич

 

105066, Москва,
Старая Басманная ул.,
д. 21/4, к. 518-528
тел.: 8 (495) 772-95-90 *22699, *22687

 

Редакторы сайта:

Алексей Владимирович Вдовин, доцент школы филологии, avdovin@hse.ru 

Мария Андреевна Кривошеина, магистрантка программы "Компаративистика", ma.krivosheina@gmail.com

Распознавание структурных элементов рукописного текста на основе интеллектуального анализа изображений


Статус:
текущий проект (2016-2017)

Исполнители: Е.Н. Пенская, совместно с РГАЛИ, ГАРФ, ГЛМ, ВМК МГУ

Аннотация проекта: 


В музеях, архивах, институтах и библиотеках России находится значительный корпус не исследованных и не введенных в широкий научных оборот рукописных текстов. Особую актуальность это приобретает по отношению к литературным памятникам XIX – ХХ вв., более 80% которых до настоящего времени не опубликовано. Расшифровка этих источников крайне затруднена, и, за редким исключением, они остаются вне внимания исследователей и читателей.В последнее десятилетие хранение архивных документов осуществляется в том числе в виде электронных копий, что создает предпосылки для автоматизированной обработки информации.Тем не менее, цифровое изображение страницы делает невозможным основные виды работ с информацией (аннотирование, поиск элементов текста, цитирование) без предварительной обработки. Поэтому большое значение при работе с источниками приобретают методики и соответствующие им технологии, формализующие и облегчающие выполнение рутинных операций по распознаванию, индексированию и поиску структурных элементов текста.В рамках проекта будет создана система автоматизированного анализа электронной версииисточника, предоставляющая информацию о составе и полноте документа, датировке,количестве, стиле и жанре записей и их расположении на странице. Более того, локализацияструктурных элементов позволит уточнить практику цитирования рукописного  источника, при которой единицей цитирования и визуализации станет не страница, а сегмент текста – абзац или строка. Историк получит возможность изучить фактографию, статистик – обработать новые данные, текстолог – сопоставить варианты произведений и поэтапно восстановить историю текста, лингвист – изучить поэтический словарь и процесс формирования языка, литературовед – познакомиться с записями, относящимися к биографии писателя. Подобная формализация рукописного текста предполагает определение высокоуровневых (семантических) структурных элементов через низкоуровневые (графические, позиционные и метрические элементы: количество и длина строки, взаиморасположение строк на странице и т.п.). Важным фактором, позволяющим проводить исследования на современном мировом уровне, станет адаптация международного стандарта семантической классификации текста TEI (Text Encoding Initiative, 2011) к особенностям рукописных текстов, имеющим свою графику и характерные приемы структурирования информации. Разработка и апробация проекта будет проведена на неопубликованных рукописных материалах классиков русской литературы XIX – ХХ вв., имеющих четкую организацию текстового массива (письмах, дневниковых записях, рабочих тетрадях), находящихся в архивах России. Таким образом, будет создан инструмент, позволяющий включить рукописные тексты в электронный корпус всемирного культурного наследия. Существенным достоинством исследования станет междисциплинарный подход к проблеме: ряд задач будет решен методами гуманитарных наук (компонентный анализ, графическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, кластеризация, анализ связей). В связи с этим к участию в проекте привлечены ведущие филологи, специалисты по источниковедению и текстологии, и математики, работающие в области искусственного интеллекта и распознавания образов.

В результате проекта будет разработана программная система распознавания структурных элементов рукописного текста. Система будет адаптирована для использования в научных центрах, пройдет апробацию в архивах и рукописных отделах музеев, библиотек и научных институтов. Для демонстрации результатов проекта будет создан специальный двуязычный сайт (русский/английский), где ученые смогут познакомиться с автоматизированными методами исследования текста и самостоятельно провести работу с рукописными источниками. Будет опубликован цикл из 6 аналитических исследований в ведущих отечественных и зарубежных журналах, входящих в системы цитирования WOS и Scopus. Результаты исследования будут представлены на трех международных научных конференциях.