• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Прикладные направления работы


В 2014 году прикладные направления являлись приоритетными:
  • Транслитератор для языка идиш

Для проведения полноценного корпусного исследования необходимо сделать корпус более сбалансированным и увеличить количество словоупотреблений. Пополнение корпуса текстами связано с существенной проблемой. Несмотря на существование стандартной орфографии (в еврейском алфавите, c записью квадратным письмом), даже на протяжении последних двух веков тексты печатались в значительно различающихся орфографических системах. Для обработки  нерегулярно записанных словоформ автоматическим морфологическим анализатором требуется унификация. Транслитератор переводит тексты на идише из этих орфографий в стандартную латинскую транслитерацию, учитывая сложности вроде нефонетически записываемых заимствований из семитских языков.

Транслитератор написан на языке программирования Python и включает в себя два модуля. Первый модуль выполняет регулярную транслитерацию, основанную на правилах, и содержит таблицы замен для разных вариантов идишской орфографии и диалектов. Второй модуль содержит словарь лексики иврито-арамейского субстрата, не подлежащих фонетической транслитерации в объёме более 7000 слов. Транслитератор доступен он-лайн, а позднее будет встроен в механизм отображения результатов корпуса.

  • Мультимедийный корпус языка идиш

Для изучения устной речи мы создали корпус, в котором паралелльно с текстами представлены аудио- и видеоматериалы, выровненные с текстами по хронометражу. Для создания мультимедийного корпуса планируется создать программу-выравниватель для автоматического предварительного выравнивания текстов с аудио- и видеоматериалами. Мультимедийный корпус языка идиш реализован в виде отдельного модуля Корпуса Языка Идиш

Создание мультимедийного корпуса состояло из подготовки текстов и программной части:

  • Подготовка текстов

Отбор аудио- и видеоматериала, пригодного для использования в мультимедийном корпусе. Мы использоваться партнерские связи с организациями, которые, как и мы, располагают такими записями. Существует большое количество записей из экспедиций последних лет, многие из которых остаются нерасшифрованными и таким образом недоступными для исследования, хотя они представляют для специалистов большой интерес. Участниками проекта была проведена расшифровка не расшифрованных ранее текстов в программе ELAN, а также нормализация диалектных форм для адекватного распознавания парсером.

  • Программная часть
  1. Автоматическое разрезание аудио/видео на фрагменты в соответствии с полученным выравниванием и внесение в XML-файлы с размеченными текстами отсылок к соответствующим фрагментам.
  2. Разработка поисковой платформы


В 2015 году существует две главных задачи:
  • пополнение корпуса текстами в различных орфографиях
Работа состоит из следующих этапов:
  1. выбор приритетных текстов
  2. создание инструкции для вычитки OCR
  3. вычитка
  4. преобразование текстов с помощью транслитератора
  • полуавтоматическое устранение опечаток в корпусе

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.