Прикладные направления работы

В 2014 году прикладные направления являлись приоритетными:

Транслитератор для языка идиш

Для проведения полноценного корпусного исследования необходимо сделать корпус более сбалансированным и увеличить количество словоупотреблений. Пополнение корпуса текстами связано с существенной проблемой. Несмотря на существование стандартной орфографии (в еврейском алфавите, c записью квадратным письмом), даже на протяжении последних двух веков тексты печатались в значительно различающихся орфографических системах. Для обработки нерегулярно записанных словоформ автоматическим морфологическим анализатором требуется унификация. Транслитератор переводит тексты на идише из этих орфографий в стандартную латинскую транслитерацию, учитывая сложности вроде нефонетически записываемых заимствований из семитских языков.

Транслитератор написан на языке программирования Python и включает в себя два модуля. Первый модуль выполняет регулярную транслитерацию, основанную на правилах, и содержит таблицы замен для разных вариантов идишской орфографии и диалектов. Второй модуль содержит словарь лексики иврито-арамейского субстрата, не подлежащих фонетической транслитерации в объёме более 7000 слов. Транслитератор доступен он-лайн, а позднее будет встроен в механизм отображения результатов корпуса.

Мультимедийный корпус языка идиш

Для изучения устной речи мы создали корпус, в котором паралелльно с текстами представлены аудио- и видеоматериалы, выровненные с текстами по хронометражу. Для создания мультимедийного корпуса планируется создать программу-выравниватель для автоматического предварительного выравнивания текстов с аудио- и видеоматериалами. Мультимедийный корпус языка идиш реализован в виде отдельного модуля Корпуса Языка Идиш

Создание мультимедийного корпуса состояло из подготовки текстов и программной части:

Подготовка текстов

Отбор аудио- и видеоматериала, пригодного для использования в мультимедийном корпусе. Мы использоваться партнерские связи с организациями, которые, как и мы, располагают такими записями. Существует большое количество записей из экспедиций последних лет, многие из которых остаются нерасшифрованными и таким образом недоступными для исследования, хотя они представляют для специалистов большой интерес. Участниками проекта была проведена расшифровка не расшифрованных ранее текстов в программе ELAN, а также нормализация диалектных форм для адекватного распознавания парсером.

Программная часть

Автоматическое разрезание аудио/видео на фрагменты в соответствии с полученным выравниванием и внесение в XML-файлы с размеченными текстами отсылок к соответствующим фрагментам.
Разработка поисковой платформы

В 2015 году существует две главных задачи:

пополнение корпуса текстами в различных орфографиях

Работа состоит из следующих этапов:

выбор приритетных текстов
создание инструкции для вычитки OCR
вычитка
преобразование текстов с помощью транслитератора

полуавтоматическое устранение опечаток в корпусе

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа «Создание и использование корпусных инструментов для изучения языка идиш»

Прикладные направления работы