Паспорт проекта

I. Цели и задачи проекта

Целями исследования является
• подготовка материалов для социолингвистического атласа Дагестана,
• пополнение корпусов двух языков нахско-дагестанской семьи: лезгинского и удинского.

Совмещение этих двух целей в одном проекте связано с тем, что социолингвистические исследования с методологической точки зрения удобно проводить параллельно с лингвистическими. Социолингвистическое измерение (данные о многоязычной ситуации конкретного региона) дает необходимый ракурс для анализа языковых особенностей диалекта данного региона, в то время как исследование языка региона помогает верифицировать данные социолингвистических исследований. Совмещение этих задач полезно для студентов-участников проекта, поскольку дает им навыки применения разных методов в работе с языками.

В рамках достижения цели подготовки материалов для социолингвистического атласа Дагестана предполагается решение следующих задач.

1. Социолингвистическое направление – создание количественной модели многоязычия следующих групп селений Дагестана:

Арчиб, Шалиб и Читаб (местные языки: арчинский, лакский и аварский)

Хив, Лака, Архит и Куг (местные языки: табасаранский и лезгинский)

Маллакент, Чумли, Янгикент и Тюменлер (местные языки – даргинский и кумыкский)

Мегеб и Убох (местные языки – мегебский и аварский)

2. Корпусное направление – работа над следующими корпусами дагестанских языков:

пополнение корпуса лезгинского литературного языка

усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка

пополнение корпуса удинского языка

создание диалектологического корпуса лезгинского языка и его интеграция с существующим корпусом лезгинского литературного языка

II. Методология и методы исследований

Методы исследования необходимо разделить на две группы:
(1) методы исследования структуры многоязычия Дагестана;
(2) методы создания корпусов дагестанских языков.

1. Методы исследования структуры многоязычия Дагестана для создания социолингвистического атласа Дагестана

1.1. Методы сбора данных

Данные о многоязычии Дагестана собираются методом полевого исследования отдельных регионов Дагестана. Для этого

выбирается регион, который должен представлять собой кластер из нескольких сел традиционного проживания, которые находятся на расстоянии пешего хода одно от другого и представляют не менее двух языков
в каждом регионе необходимо провести не менее 10 дней, обследовав все деревни кластера на предмет языкового репертуара жителей. Обследование проводится путем анкетирования местных жителей, причем особенностью анкетирования является вопрос о языковом репертуаре не только самих респондентов, но и их старших, в том числе покойных родственников. Методом исследования, таким образом, является работа с семейной памятью, что позволяет до определенной степени реконструировать структуру многоязычия в селе вплоть до конца 19 века.

1.2. Методы обработки данных

Cобранные данные вносятся в анкету Excel и обрабатываются количественно с целью выяснения того, какой процент населения какими языками владел в определенные периоды на основании

собранных данных создается карта региона

создается описание языковой ситуации региона в виде статьи объемом около 10 000 знаков (на английском языке, поскольку издание Атласа планируется по-английски) по следующему план.

2. Методы создания корпусов дагестанских языков

2.1. Дигитализация лингвистических материалов:

ввод в компьютер текстов (в кириллической орфографии) на удинском языке из имеющегося у участников проекта рукописного архива

набор текстов (в кириллической орфографии) на диалектах лезгинского языка и их переводов, доступных из опубликованных источников

ручная коррекция ошибок в текстах на лезгинском литературном языке, автоматически распознанных при помощи программы ABBYY FineReader

обработка словарей лезгинского языка и работ по лезгинской диалектологии и ввод слов в лексическую базу данных

2.2. Компьютерная обработка оцифрованных лингвистических материалов:

автоматическая конвертация материалов в кириллической орфографии в стандартную латинизированую транскрипцию

приписывание семантической (таксономический класс существительных и глаголов) и синтаксической (переходность) информации лексемам в грамматическом словаре лезгинского литературного языка

автоматическое аннотирование текстов на лезгинском литературном и удинском языках (приписывание лингвистически релевантной информации словоформам в тексте: лемма, часть речи, словоизменительные категории, таксономический класс лексемы, аргументный тип глагола, русский и английский переводы леммы) при помощи программы UniParser 1.0 и индексация аннотированных материалов в поисковом движке EANC

полуавтоматическое аннотирование текстов на диалектах лезгинского языка

размещение корпусов в открытом доступе в интернете

III. Предполагаемые результаты исследования

В рамках создания социолингвистического атласа Дагестана будут получены следующие результаты.

Произведена количественная обработка баз данных по следующим кластерам:

Хив – Лака – Архит – Куг (табасаранский и лезгинский)
Мегеб – Убух (мегебский и аварский)
Маллакент – Чумли – Янгикент – Тюменлер (даргинский и кумыкский)
Чираг – Рича (даргинский и агульский)

Созданы главы Атласа по четырем названным кластерам. Каждая глава состоит из карты региона с количественными показателями многоязычия до 1919 года рождения и после 1919 года рождения и статьи, описывающей языковую ситуацию региона и динамику развития этой ситуации за 20-й век.

Организована и проведена летняя полевая поездка в Дагестан с целью сбора данных по новому кластеру. Предположительный регион – Ури, Камахал, Мукар (лакские села), Шитлиб, Шангода, Бухты (аварские).

Создана и количественно обработана база данных по новому кластеру сел.

В рамках создания корпусов дагестанских языков будут получены следующие результаты.

пополнение имеющегося корпуса лезгинского литературного языка до 4 млн. словоупотреблений (в настоящее время объем корпуса около 800 тыс. словоупотреблений)

усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка: снабжение семантической и частично синтаксической аннотацией (в настоящее время только морфологическая аннотирование)

пополнение разрабатываемого в рамках программы РАН «Корпусная лингвистика» корпуса удинского языка текстами из рукописного архива М. Кечаари объемом не менее 70 тыс. словоупотреблений

создание диалектологического корпуса лезгинского языка (объемом около 5 тыс. словоупотреблений) и его интеграция с существующим корпусом лезгинского литературного языка.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная группа «Исследование дагестанских языков корпусными и социолингвистическими методами»

Паспорт проекта