• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Руководство
Заместитель руководителя Бендерский Илья Игоревич
Глава в книге
Русские глоссы в немецком Маттиоли

Лифшиц А. Л., Святохина Е. В.

В кн.: Вспомогательные исторические дисциплины в современном научном знании: Материалы XXXVI Всероссийской научной конференции с международным участием. Москва, 4–5 апреля 2024 г.. М.: ИВИ РАН, 2024. С. 220-221.

Препринт
Linguistic Landscape of Orenburg Oblast

Kuznetsov Egor.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 113.

Семинары лингвистической лаборатории по корпусным технологиям

В рамках реализации Программы фундаментальных исследований начинается цикл семинаров лингвистической лаборатории.


Русский язык в зеркале Корпуса русских учебных текстов

Семинар по итогам проекта Е. В. Рахилиной "Корпусные технологии в лингвистических и междисциплинарных исследованиях" 2014 года (поддержан ЦФИ научного фонда НИУ ВШЭ)

Зевахина Н.А., Джакупова С.С.

Доклад состоится в Институте славяноведения РАН, 16 декабря 2014 года в 12.00

Доклад посвящен изучению специфического лингвистического материала – коллекции текстов на русском языке, заведомо содержащих «ошибки». Казалось бы, для чего изучать то, что традиционная лингвистика не считает нормативным? В корпусной лингвистике не так давно сформировалось направление Learner Corpora, представители которого занимаются созданием и разработкой учебных корпусов, или «корпусов ошибок». Эти корпусы имеют широкое применение в педагогической практике. Менее очевидна польза, которую они могут принести лингвистам-исследователям. В докладе этот вопрос рассматривается на примере недавно созданного в рамках Лаборатории по корпусным технологиям НИУ ВШЭ Корпуса русских учебных текстов. Корпус содержит тексты, написанные студентами, носителями русского языка, в процессе обучения. Для пользования корпусом была разработана и апробирована система аннотирования текстов (метаразметка) и «ошибок» (лингвистическая разметка). Кроме того, в рамках доклада обсуждаются следующие темы: понятие нормы в корпусном материале, создание нестандартной грамматики, относительность понятия «ошибки», перспективы типологически ориентированного и «конструкционного» подхода к изучению «ошибочного» материала.



5 декабря 2014г. в 10:30 на совместном заседании научного семинара и группы "Корпусные технологии в лингвистических и междисциплинарных исследованиях" 
состоится доклад Валентины Апресян "Семантика и модели управления у глаголов эмоций" 

У глаголов со значением эмоций (psych verbs, experiencer verbs) традиционно принято выделять валентности экспериенцера и стимула. Однако большое разнообразие моделей управления при отсутствии единого характерного способа синтаксического оформления валентности стимула позволяет предположить, что такой роли в чистом виде не существует. У различных эмоций валентность стимула окрашивается  семантикой разных дополнительных ролей – пациенс, адресат, место, часть. Во многих случаях выбор модели управления семантически мотивирован этой дополнительной ролью. Тип дополнительной роли определяется всей структурой события, в частности, характером стимула, желаниями, поведением, речевыми проявлениями  и другими особенностями того или иного эмоционального состояния.



14 ноября 2014 г.  в 10.00
состоится доклад Рупрехта фон Вальденфельса "Slavic derivational morphology between contact and inheritance: a corpus driven approach"


In a closely related set of languages such as that of the Slavic genus, differences in the use of derivational morphology are difficult to analyze because of the multitude of functions and factors which are rarely clear cut. The talk presents a method to investigate divergence and convergence in the use of derivational morphology on the basis of translationally equivalent texts. This investigation is part of a more general system which allows for the simple investigation of many, heterogenous linguistic variables.

Using a word aligned, morphologically tagged and lemmatized parallel corpus of prose in all major Slavic languages (ParaSol), I compare the use of nominal suffixes and verbal prefixes in translationally equivalent verb forms across languages. This gives me an extensionally defined handle on the domain of use for each derivational type and makes a comparison of interlanguage differences as well as differences between types possible. The data are evaluated both using clustering algorithms as well as qualitatively using a web interface that visualizes the contrasting prefixed forms in context.

 


17 октября 2014 г. в 10.00 состоится заседание научного семинара и семинара "Корпусные технологии в лингвистических и междисциплинарных исследованиях".

В программе доклад Екатерины Рахилиной и Виктории Кругляковой  "Типология семантических сдвигов: новый взгляд на метафоры вращения"
В основе доклада - исследование семантики глаголов вращения в типологической перспективе на материале 15 языков (русский, английский, испанский, китайский, японский, татарский, коми и др.).  Кратко обсуждаются базовые ситуации вращения и принципы их лексикализации, а затем – семантические сдвиги, которые развиваются на основе этих лексикализаций.
Решаются две задачи:
1)  описательная: выявить набор моделей метафорических переносов, которые, скорее всего, воспроизводятся в языках мира  и
2) теоретическая: выявленные переходы значений не всегда укладываются в общепринятые теоретические представления о  метафоре и в определенном отношении могут их обогатить.


26 сентября 2014 г. в 10.00 на факультете филологии НИУ ВШЭ по адресу Старая Басманная, 21/4, ауд. 518 состоится совместное заседание научного семинара ОФиПЛ, семинара проекта "Языковое и этническое разнообразие Дагестана" и семинара проекта "Корпусные технологии в лингвистических и междисциплинарных исследованиях".

В программе доклад М. А. Даниэля на тему "Еще раз о личном согласования в арчинском языке".
Доклад посвящен анализу особого типа согласования в арчинском языке (одном из языков лезгинской ветви нахско-дагестанской семьи).
Арчинский язык демонстрирует особую стратегию согласования с контролером - личным местоимением множественного числа: 'мы' (эксклюзивным), инклюзивным местоимением и 'вы'. В работах, посвященных этому феномену, предлагаются две трактовки: 
а) личные местоимения множественного числа образуют особый именной класс (Кибрик 1977) 
б) данный механизм является особым типом личного согласования (Chumakina & Corbett 2007), использующим морфосинтаксис классного согласования. 
Привлечение новых данных об этом явлении позволяет однозначно утверждать, что решение, предложенное А.Е. Кибриком, неудовлетворительно; но, с другой стороны, и решение М. Чумакиной и соавторов ставит трудноразрешимые проблемы теоретического и типологического характера.


19 сентября 2014 г. в 10.00 на факультете филологии (Старая Басманная 21/4, комн. 518) состоится совместное заседание научного семинара отделения фундаментальной и прикладной лингвистики и семинара коллектива, работающего над проектом "Корпусные технологии в лингвистических и междисциплинарных исследованиях".

В программе презентация Юлии Бадрызловой о создании онлайн-курсов для платформ типа Coursera (10.00) и доклад Натальи Слюсарь (10.30) на тему:
"Экспериментальные исследования морфологии: некоторые особенности представления морфологически сложных слов в ментальном лексиконе".

В докладе пойдет речь о том, как морфологически сложные слова хранятся в ментальном лексиконе. Будет сделана попытка пересмотреть негласно существующие в этой области представления, согласно которым какая-то
словоформа или производное слово могут либо храниться отдельно, целиком, либо подвергаться при восприятии морфологическому анализу, который возводит их к основе или к другой лемме. На примере
экспериментов с русскими приставочными и бесприставочными глаголами и существительными мы покажем, что система связей внутри ментального лексикона намного сложнее и поднимем различные вопросы о том, как
исследовать эти связи, что значат уже полученные нами данные и какие проблемы возникают при их интерпретации.
 

18 апреля 2014 г. в 11.00 в 107 аудитории состоится совместное заседание аспирантского семинара и семинара ЦФИ.

Встреча посвящена состоянию дел в learner corpus. Андрей Борисович Кутузов и Елизавета Кузьменко расскажут о введении автоматической разметки по частям речи. Елизавета Кузьменко проведет обзор новой серии тренажеров. Анастасия Новикова расскажет об изменениях в классификации ошибок в области моделей управления глаголов. Ольга Ильинична Виноградова перечислит трудности на пути дальнейшего развития и вопросы, которые предстоит решить в ближайшее время. 


 14 марта 2014 г. в 11.00  (Трифоновская 57-107) состоится совместное заседание Лаборатории по корпусным исследованиям и аспирантского семинара ОФиПЛ.

В программе доклад А. А. Бонч-Осмоловской "Предикаты с дативным субъектом: опыт диахронического корпусного исследования".

Исследуются конструкции с дативным субъектом в русском языке. Русский язык допускает предложения с невыраженным подлежащим (внешним аргументом) и дативным маркированием субъекта. В докладе анализируются диахронические данные, полученные по корпусным выборкам с рядом именных предикатов (кратких и полных форм прилагательных и предикативов).  


 13 марта 2014 г. в 12.30 

Доклад Натальи Зевахиной и Светланы Джакуповой "Сравнительные конструкции с союзами" 

 В докладе анализируется функционирование сравнительных конструкций с союзами, предлагается их классификация. Рассматриваются конструкции с союзами «нежели» и «чем», конструкции с новыми союзными образованиями «нежели чем» и «чем нежели»; конструкции с «лучше … чем/нежели», «больше ... чем/нежели», «скорее ... чем/нежели». Обсуждается степень грамматикализации и сфера употребления этих конструкций.


 

7 февраля 2014 г. в 11.00 в рамках совместного аспирантско-докторантского семинара и семинара по проекту "Корпусные технологии в лингвистических и междисциплинарных исследованиях" (Трифоновская, 57, 107)

Доклад А.Б. Летучего "Начните с того, что поезжайте в первый четверг к тетушке: влияние формы глагола в одной клаузе на форму глагола в другой". 

В большинстве случаев выбор формы глагола или подчинительного союза в русских придаточных предложениях можно объяснить семантикой конструкции (например, "когда он приедет" - временная семантика, "если он приедет" - семантика условия) либо синтаксическими свойствами главного глагола (например, глагол "надеяться" присоединяет сентенциальные актанты с союзом "что", а глагол "хотеть" - с союзом "чтобы").
Однако есть случаи, которые не объясняются влиянием семантики и типом управления. В некоторых случаях форма глагола в зависимой клаузе, как кажется, дублирует форму глагола в подчиняющей клаузе (например, "начни с того, что напиши" - "начал с того, что написал"). Мы рассмотрим случаи такого рода и расскажем об их типах и встречаемости в Национальном корпусе русского языка.


 

 31 января 2014 г. Совместное заседание семинара аспирантов ОФиПЛ и Лаборатории по корпусным технологиям

Доклад В. Ю. Апресян «Корпусное исследование нестандартных конструкций»

Анализ частотностей заполнения нестандартных конструкций теми или иными лексемами демонстрирует следующую тенденцию: большой процент реализаций конструкции «обслуживается» небольшим числом лексем-«фаворитов» (лингвистический аналог правила Парето). При этом полной композициональности в нестандартных конструкциях не существует – интерпретации сильно зависят от  частеречных и семантических свойств «фаворитов», т.е. каждая конструкция имеет как минимум несколько семантических модификаций. Некоторые «фавориты» идиоматизируются и грамматикализуются, «откалываясь» от порождающей их конструкции, а некоторые создают устойчивые коллокации, задавая основные направления семантических модификаций. На выбор "фаворитов" влияет взаимная аттракция (семантическое согласование) семантики конструкции и заполняющей лексемы, а также особенности языковой картины мира, в которой отражены общие законы мироустройства, представленные в языке.


 

21 января 2014 г. Совместное заседание семинара аспирантов ОФиПЛ и Лаборатории по корпусным технологиям

Доклад Н.Р. Добрушиной «Языковые контакты в Дагестане: результаты полевых исследований»

В Дагестане более сорока языков. Очень часто жители соседних деревень, между которыми расстояние час пешего хода, говорят на разных языках. Сегодня проблема коммуникации решается легко - все знают русский язык. Но это недавнее приобретение. А что было раньше? И самое главное, как это узнать? В докладе представлены методы исследования структуры языковых контактов в Дагестане и некоторые результаты этих исследований, важные как собственно для социолингвистики, так и для областей языкознания, связанных с осмыслением последствий языковых контактов, в том числе для изучения нестандартных вариантов русского языка.
 



19 декабря
2013 г. в 14.00 в Институте русского языка РАН (Волхонка 18/2) на заседании ученого совета выступит Е.В. Рахилина, руководитель проекта "Корпусные технологии в лингвистических и междисциплинарных исследованиях", поддержанного в 2013 году ЦФИ НИУ ВШЭ. В докладе освещаются вопросы, решаемые в ходе работы над проектом. 
Будет рассказано о работах, которые ведутся в рамках проекта. Приоритетными направлениями деятельности лаборатории являются теоретическая разработка и создание электронных ресурсов (корпусов ошибок, корпусов коммуникации в социальных сетях, частотных сервисов, учебных тренажеров), а также корпусно-ориентированные социолингвистические и связанные с ними лингвистические (лексико-грамматические) исследования нестандартных вариантов русского языка (русский язык национальных образований РФ, русский язык зарубежья, русский язык как иностранный).

В докладе будут представлены:
- поиск по N-грамам Национального корпуса русского языка (сервис, позволяющий изучать наиболее типичные паттерны сочетаемости и конструктивных свойств слов и выражений русского языка);
- корпусы ошибок, типичных для носителей русского языка, пишущих по-русски и по-английски, а также создаваемые на их основе комплексы учебных тренажеров;
- проект изучения эритажного русского (языка потомков русскоязычных эмигрантов, проживающих в США, Финляндии и др. странах, heritage Russian).

 



3 декабря 2013 г. (во вторник), в 17.30 (на Трифоновской, 57, в ауд. 107) состоится доклад

"Проблемы лингвистической разметки ошибок в обучающих корпусах (learner corpora)"

В рамках проекта ЦФИ развиваются обучающие корпусы студенческих переводов (Russian Learner Translator Corpus) и студенческих эссе на английском, написанных носителями русского языка (English as a Second
Language Learner Corpus).
На семинаре будет рассказано о применении для разметки ошибок свободной системы веб-аннотирования Brat, о проблемах и перспективах, связанных с этим. Кроме того, мы уделим внимание вопросам правильного составления инструкций для аннотаторов и степени их согласованности. Также мы поговорим о классификациях ошибок и о различии подобных классификаций для первичных текстов (например, эссе) и для вторичных (например, переводов).

Докладчики: Андрей Кутузов (Russian Learner Translator Corpus,
магистратура НИУ ВШЭ), Елизавета Кузьменко (ESL Learner corpus,
бакалавриат НИУ ВШЭ).


 

15 ноября 2013 г., в 18.00 в ауд. 107 (Трифоновская, 57) в рамках семинара по проекту, поддержанному ЦФИ, состоится доклад Е. Клячко:

"Автоматизация поиска ошибок в текстах иностранцев, изучающих русский язык, с помощью биграмм Google books"

В докладе будет рассказано о попытках автоматизировать аннотацию текстов для корпуса текстов "херитажников" при помощи биграмм. В настоящее время корпус херитажных текстов размечается вручную, но автоматизация поиска ошибок (автоматический поиск с последующей корректировкой человеком-разметчиком) могла бы ускорить разметку и сделать аннотации более единообразными. Будет описан метод поиска ошибок при помощи биграмм Google books и проблемы, возникающие при использовании этого метода.


 

 14 ноября 2013 г. в 18.00 в ауд. 107 (Трифоновская, 57) в рамках семинара по проекту, поддержанному ЦФИ, состоится доклад В. Барановой:

Данные лингвистических и социолингвистических экспедиций в Калмыкию

В докладе представлены некоторые результаты экспедиций в Калмыкии, включавших сбор данных по грамматическим темам, запись текстов и социолингвистическое описание калмыцкого языка. Кратко будет представлена языковая ситуация в Калмыкии. На примере одного явления, грамматикализации глагола гих ‘говорить’, показаны возможности небольшого корпуса устных текстов  (частично опубликованы в Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. Т. V. Ч. II: Исследования по грамматике калмыцкого языка / Ред. С. С. Сай, В. В. Баранова, Н. В. Сердобольская. Т. 5: Исследования по грамматике калмыцкого языка. Ч. 2. СПб.: Наука, 2009). Предполагается обсудить возможности совмещения корпуса устных текстов и Калмыцкого корпуса (http://web-corpora.net/KalmykCorpus). 

Влада Баранова – доцент НИУ ВШЭ, Санкт-Петербург,  научный сотрудник ИЛИ РАН



7 ноября  2013 г. в рамках проекта "Корпусные технологии в лингвистических и междисциплинарных исследованиях" состоится доклад: 

Светлана Джакупова, Наталья Зевахина, Александр Летучий
"Особенности разметки и метаразметки Корпуса ошибок в письменных научных текстах носителей русского языка"

Доклад посвящён разметке ошибок для Корпуса ошибок в письменных научных текстах носителей русского языка. На примере текстов, различных с металингвистической точки зрения, мы обсудим основные типы и причины ошибок, фиксацию их в качестве тегов, область действия ошибок и веса ошибок.

16.00 в 107 аудитории на ул. Трифоновской, д.57

 



22 октября 2013 г
. в рамках проекта "Корпусные технологии в лингвистических и междисциплинарных исследованиях" планируется доклад А. Выборновой о классификациях ошибок.

На сегодняшний день одним из наиболее активно развивающихся направлений в области корпусных технологий является создание корпусов на основе коллекций текстов, в которых размечены специальными тэгами ошибки разных типов (такие корпусы называют Learner Corpora). Вопрос, который в  первую очередь  решают специалисты, работающие над такими корпусами, лежит в области типологии ошибок. До сих пор большинством специалистов за аксиому принималась классификация верхнего уровня (весьма приближенная), а дальнейшая группировка ошибок решалась в зависимости от основных задач и типов текстов, представленных в корпусе.  В результате World Learner Corpora – это множество небольших корпусов с собственной разметкой: корпусов ошибок в академической речи, в речи эмигрантов, в устной речи политиков, корпусов переводческих ошибок и т.д. Очевидно, что следующий этап развития корпусов ошибок связан с конгломерацией и поиском универсальной системы классификации при сохранении индивидуальных черт в подкорпусах. О том, какие существуют классификации ошибок и типы разметки, а также о том, какие шаги по универсализации типологии предпринимаются, на ближайшем семинаре лаборатории по корпусным технологиям расскажет Выборнова Анна.

ауд. 107 по адресу ул. Трифоновская, д. 57



17 июня 2013 г. в 18.30 в ИРЯ (Волхонка 18/2, комн. 69) состоится доклад Андрея Кузузова и Елизаветы Кузьменко:

Доклад А. Кутузова
Russian Learner Translator Corpus создаётся из англо-русских и русско-английских переводов, выполненных студентами российских вузов и содержащих переводческие ошибки. Его основная цель — предоставить исследователям и преподавателям репрезентативный материал для изучения переводческих ошибок и вариативности перевода. Разработчики предлагают варианты решения проблем, связанных с разметкой текстов и классификацией ошибок.

Доклад Е. Кузьменко
В основе корпуса лежит коллекция академических эссе, написанных по-английски русскоязычными студентами. Предлагается классификация типичных ошибок, допускаемых русскоязычными студентами на письме по-английски. Разработан способ представления данных, включающий разные виды разметки. Созданы обучающие тренажеры, внедренные в LMS.


 

 26 апреля 2013 г. в 16.30  на семинаре лингвистической лаборатории состоится доклад  О.Ляшевской на тему: "От корпуса к лексико-грамматическому частотному словарю".


У носителей русского языка есть представление о том, что родительный падеж встречается в речи реже, чем творительный, а будущее время реже, чем прошедшее. Однако, есть лексемы, которые в соответствующих формах ведут себя ровно наоборот. Например, лексема "шепот" в 71% случаев употребляется в творительном падеже (против 4% родительного), а формы будущего и прошедшего времени лексемы "окупиться" соотносятся как 3/1.
Лексико-ориентированный подход к распределению грамматических форм был долгое время недооценен как в исследованиях грамматики, так и в компьютерной лингвистике. В докладе дается обзор нового экспериментального лексико-грамматического словаря, который будет востребован и в той, и в другой области. 
Словарь строится на данных Национального корпуса русского языка. Рассматриваются вопросы, связанные с отбором и представлением информации в словаре, освещаются проблемы обработки корпусных данных, приводятся примеры использования частотных лексико-грамматических профилей в исследованиях русской грамматической семантики, вариативности форм, а также при автоматической дизамбигуации текстов.

Семинар будет проводиться по адресу  Хитровский переулок д.2/8 корп. 5,  409 ауд.
Приглашаются желающие.
Справки по тел. (495) 772-95-90*2504 или laboranty.vyshka@gmail.com


В понедельник 1-го апреля 2013 г. в 14.00 в Институте русского языка РАН (ул. Волхонка, д. 18/2, комн. 69) планируется доклад А. Б. Летучего и Н. А. Зевахиной на тему "Корпус ошибок в письменных текстах носителей русского языка". 

В основе базы данных для корпуса ошибок лежат письменные  работы студентов разных факультетов  НИУ ВШЭ. Доклад посвящен описанию разработанной классификации  стилистических и грамматических ошибок, методам разметки и метаразметки корпуса, а также прикладным вопросам разработки учебных тренажеров на материале корпуса ошибок.

Приглашаются желающие.
Справки по тел. (495) 772-95-90*2504 или laboranty.vyshka@gmail.com


В пятницу, 22 февраля 2013 г., в 16.30 по адресу: Хитровский переулок, д. 2/8, корпус. 5, комн. 312 -- состоится открытое заседание научно-исследовательской лаборатории "Корпусные технологии в лингвистических и междисциплинарных исследованиях". В программе доклад Н. Р. Добрушиной и М. А. Даниэля на тему: "Корпус текстов русского языка в Дагестане"

Русский язык Дагестана находится под большим влиянием местных языков. Целый ряд особенностей его морфологии и синтаксиса, таких как опущение предлога, квазиэргативность, маркирование эвиденциальности и многие другие, говорит о том, что сегодня в Дагестане мы имеем дело с интереснейшим явлением в области языковых контактов. В докладе будет рассказано об особенностях дагестанской устной речи, об объеме и составе корпуса и о проблемах его разметки.

Приглашаются все желающие.
Для прохода в здание НИУ ВШЭ необходимо заказать пропуск здесь...
Справки по тел. (495) 772-95-90*2504 или laboranty.vyshka@gmail.com