Прикладные направления работы
В 2014 году прикладные направления являлись приоритетными:
- Транслитератор для языка идиш
Для проведения полноценного корпусного исследования необходимо сделать корпус более сбалансированным и увеличить количество словоупотреблений. Пополнение корпуса текстами связано с существенной проблемой. Несмотря на существование стандартной орфографии (в еврейском алфавите, c записью квадратным письмом), даже на протяжении последних двух веков тексты печатались в значительно различающихся орфографических системах. Для обработки нерегулярно записанных словоформ автоматическим морфологическим анализатором требуется унификация. Транслитератор переводит тексты на идише из этих орфографий в стандартную латинскую транслитерацию, учитывая сложности вроде нефонетически записываемых заимствований из семитских языков.
Транслитератор написан на языке программирования Python и включает в себя два модуля. Первый модуль выполняет регулярную транслитерацию, основанную на правилах, и содержит таблицы замен для разных вариантов идишской орфографии и диалектов. Второй модуль содержит словарь лексики иврито-арамейского субстрата, не подлежащих фонетической транслитерации в объёме более 7000 слов. Транслитератор доступен он-лайн, а позднее будет встроен в механизм отображения результатов корпуса.
- Мультимедийный корпус языка идиш
Для изучения устной речи мы создали корпус, в котором паралелльно с текстами представлены аудио- и видеоматериалы, выровненные с текстами по хронометражу. Для создания мультимедийного корпуса планируется создать программу-выравниватель для автоматического предварительного выравнивания текстов с аудио- и видеоматериалами. Мультимедийный корпус языка идиш реализован в виде отдельного модуля Корпуса Языка Идиш
Создание мультимедийного корпуса состояло из подготовки текстов и программной части:
- Подготовка текстов
Отбор аудио- и видеоматериала, пригодного для использования в мультимедийном корпусе. Мы использоваться партнерские связи с организациями, которые, как и мы, располагают такими записями. Существует большое количество записей из экспедиций последних лет, многие из которых остаются нерасшифрованными и таким образом недоступными для исследования, хотя они представляют для специалистов большой интерес. Участниками проекта была проведена расшифровка не расшифрованных ранее текстов в программе ELAN, а также нормализация диалектных форм для адекватного распознавания парсером.
- Программная часть
- Автоматическое разрезание аудио/видео на фрагменты в соответствии с полученным выравниванием и внесение в XML-файлы с размеченными текстами отсылок к соответствующим фрагментам.
- Разработка поисковой платформы
В 2015 году существует две главных задачи:
- пополнение корпуса текстами в различных орфографиях
- выбор приритетных текстов
- создание инструкции для вычитки OCR
- вычитка
- преобразование текстов с помощью транслитератора
- полуавтоматическое устранение опечаток в корпусе
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.