• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Руководство
Заместитель руководителя Бендерский Илья Игоревич
Книга
Русская проза первого двадцатилетия XXI века: учебное пособие

Павловец М. Г., Агеносов В., Капица В. и др.

М.: Директ-Медиа, 2025.

Статья
Прагматика неучастия: дневник Алексея Кручёных 1931 - 1933 гг.

Хачатурян Л. В.

Slavic Literatures (ранее - Russian Literature). 2025. № 1. С. 1-19.

Глава в книге
Языковой сдвиг и трансформация идентичности в сообществах европейской части российской Арктики: сравнительный анализ стратегий социокультурной адаптации
В печати

Смирнова А. А., Влахов А. В.

В кн.: Сборник статей по итогам работы Международной научно-практической конференции «Родной и иностранный языки в поликультурном пространстве». Сургут: Сургутский государственный университет, 2025.

Препринт
Linguistic Landscape of Orenburg Oblast

Kuznetsov Egor.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 113.

Поздравляем Тимофея Архангельского с защитой кандидатской диссертации

ПРИНЦИПЫ ПОСТРОЕНИЯ МОРФОЛОГИЧЕСКОГО ПАРСЕРА ДЛЯ РАЗНОСТРУКТУРНЫХ ЯЗЫКОВ
Специальность 10.02.21 — прикладная и математическая лингвистика

Создание электронного языкового корпуса — незаменимого инструмента современной лингвистики — является сложной задачей и состоит из нескольких этапов. Одним из самых сложных этапов при создании корпуса языка с богатой морфологией является грамматическая разметка текстов, при которой каждой словоформе текста приписываются её начальная форма и грамматические признаки. Разметка достаточно больших корпусов производится автоматически с помощью специальной программы — морфологического парсера.

В диссертации предлагается универсальный формат, с помощью которого можно описать грамматику и лексику языка, используя это описание в дальнейшем для автоматической разметки текстов с помощью морфологического парсера. В предлагаемом формате UniParser учитывается множество нетривиальных морофологических явлений, встречающихся в языках разного грамматического строя и ареальной принадлежности. От существующих аналогов формат отличается необязательностью деления на морфемы, поддержкой регулярного словообразования, отсутствием каких-либо внутренних представлений словоформ и другими характеристиками.

С помощью разработанного формата и пилотного варианта парсера, который способен работать с большинством элементов формата, в рамках Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика» было создано несколько корпусов: албанский, осетинский, бурятский и ряд других.