Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Т. 1: Разделы I–XI. М.: Русский фонд содействия образованию и науке (Университет Дмитрия Пожарского), 2025.
Преображенская А. А., Колоколов А. М.
Quaestio Rossica. 2025. Т. 13. № 2. С. 497-516.
В кн.: Индоевропейское языкознание и классическая филология - XXIX (1). СПб.: Институт лингвистических исследований РАН, 2025. С. 425-430.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Создание электронного языкового корпуса — незаменимого инструмента современной лингвистики — является сложной задачей и состоит из нескольких этапов. Одним из самых сложных этапов при создании корпуса языка с богатой морфологией является грамматическая разметка текстов, при которой каждой словоформе текста приписываются её начальная форма и грамматические признаки. Разметка достаточно больших корпусов производится автоматически с помощью специальной программы — морфологического парсера.
В диссертации предлагается универсальный формат, с помощью которого можно описать грамматику и лексику языка, используя это описание в дальнейшем для автоматической разметки текстов с помощью морфологического парсера. В предлагаемом формате UniParser учитывается множество нетривиальных морофологических явлений, встречающихся в языках разного грамматического строя и ареальной принадлежности. От существующих аналогов формат отличается необязательностью деления на морфемы, поддержкой регулярного словообразования, отсутствием каких-либо внутренних представлений словоформ и другими характеристиками.
С помощью разработанного формата и пилотного варианта парсера, который способен работать с большинством элементов формата, в рамках Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика» было создано несколько корпусов: албанский, осетинский, бурятский и ряд других.