Паспорт проекта
I. Цели и задачи проекта
Целями исследования является
• подготовка материалов для социолингвистического атласа Дагестана,
• пополнение корпусов двух языков нахско-дагестанской семьи: лезгинского и удинского.
Совмещение этих двух целей в одном проекте связано с тем, что социолингвистические исследования с методологической точки зрения удобно проводить параллельно с лингвистическими. Социолингвистическое измерение (данные о многоязычной ситуации конкретного региона) дает необходимый ракурс для анализа языковых особенностей диалекта данного региона, в то время как исследование языка региона помогает верифицировать данные социолингвистических исследований. Совмещение этих задач полезно для студентов-участников проекта, поскольку дает им навыки применения разных методов в работе с языками.
В рамках достижения цели подготовки материалов для социолингвистического атласа Дагестана предполагается решение следующих задач.
1. Социолингвистическое направление – создание количественной модели многоязычия следующих групп селений Дагестана:
- Арчиб, Шалиб и Читаб (местные языки: арчинский, лакский и аварский)
- Хив, Лака, Архит и Куг (местные языки: табасаранский и лезгинский)
- Маллакент, Чумли, Янгикент и Тюменлер (местные языки – даргинский и кумыкский)
- Мегеб и Убох (местные языки – мегебский и аварский)
2. Корпусное направление – работа над следующими корпусами дагестанских языков:
- пополнение корпуса лезгинского литературного языка
- усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка
- пополнение корпуса удинского языка
- создание диалектологического корпуса лезгинского языка и его интеграция с существующим корпусом лезгинского литературного языка
II. Методология и методы исследований
Методы исследования необходимо разделить на две группы:
(1) методы исследования структуры многоязычия Дагестана;
(2) методы создания корпусов дагестанских языков.
1. Методы исследования структуры многоязычия Дагестана для создания социолингвистического атласа Дагестана
1.1. Методы сбора данных
Данные о многоязычии Дагестана собираются методом полевого исследования отдельных регионов Дагестана. Для этого
- выбирается регион, который должен представлять собой кластер из нескольких сел традиционного проживания, которые находятся на расстоянии пешего хода одно от другого и представляют не менее двух языков
- в каждом регионе необходимо провести не менее 10 дней, обследовав все деревни кластера на предмет языкового репертуара жителей. Обследование проводится путем анкетирования местных жителей, причем особенностью анкетирования является вопрос о языковом репертуаре не только самих респондентов, но и их старших, в том числе покойных родственников. Методом исследования, таким образом, является работа с семейной памятью, что позволяет до определенной степени реконструировать структуру многоязычия в селе вплоть до конца 19 века.
1.2. Методы обработки данных
Cобранные данные вносятся в анкету Excel и обрабатываются количественно с целью выяснения того, какой процент населения какими языками владел в определенные периоды на основании
- собранных данных создается карта региона
- создается описание языковой ситуации региона в виде статьи объемом около 10 000 знаков (на английском языке, поскольку издание Атласа планируется по-английски) по следующему план.
2. Методы создания корпусов дагестанских языков
2.1. Дигитализация лингвистических материалов:
- ввод в компьютер текстов (в кириллической орфографии) на удинском языке из имеющегося у участников проекта рукописного архива
- набор текстов (в кириллической орфографии) на диалектах лезгинского языка и их переводов, доступных из опубликованных источников
- ручная коррекция ошибок в текстах на лезгинском литературном языке, автоматически распознанных при помощи программы ABBYY FineReader
- обработка словарей лезгинского языка и работ по лезгинской диалектологии и ввод слов в лексическую базу данных
2.2. Компьютерная обработка оцифрованных лингвистических материалов:
- автоматическая конвертация материалов в кириллической орфографии в стандартную латинизированую транскрипцию
- приписывание семантической (таксономический класс существительных и глаголов) и синтаксической (переходность) информации лексемам в грамматическом словаре лезгинского литературного языка
- автоматическое аннотирование текстов на лезгинском литературном и удинском языках (приписывание лингвистически релевантной информации словоформам в тексте: лемма, часть речи, словоизменительные категории, таксономический класс лексемы, аргументный тип глагола, русский и английский переводы леммы) при помощи программы UniParser 1.0 и индексация аннотированных материалов в поисковом движке EANC
- полуавтоматическое аннотирование текстов на диалектах лезгинского языка
- размещение корпусов в открытом доступе в интернете
III. Предполагаемые результаты исследования
В рамках создания социолингвистического атласа Дагестана будут получены следующие результаты.
- Произведена количественная обработка баз данных по следующим кластерам:
- Хив – Лака – Архит – Куг (табасаранский и лезгинский)
- Мегеб – Убух (мегебский и аварский)
- Маллакент – Чумли – Янгикент – Тюменлер (даргинский и кумыкский)
- Чираг – Рича (даргинский и агульский)
- Созданы главы Атласа по четырем названным кластерам. Каждая глава состоит из карты региона с количественными показателями многоязычия до 1919 года рождения и после 1919 года рождения и статьи, описывающей языковую ситуацию региона и динамику развития этой ситуации за 20-й век.
- Организована и проведена летняя полевая поездка в Дагестан с целью сбора данных по новому кластеру. Предположительный регион – Ури, Камахал, Мукар (лакские села), Шитлиб, Шангода, Бухты (аварские).
- Создана и количественно обработана база данных по новому кластеру сел.
В рамках создания корпусов дагестанских языков будут получены следующие результаты.
- пополнение имеющегося корпуса лезгинского литературного языка до 4 млн. словоупотреблений (в настоящее время объем корпуса около 800 тыс. словоупотреблений)
- усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка: снабжение семантической и частично синтаксической аннотацией (в настоящее время только морфологическая аннотирование)
- пополнение разрабатываемого в рамках программы РАН «Корпусная лингвистика» корпуса удинского языка текстами из рукописного архива М. Кечаари объемом не менее 70 тыс. словоупотреблений
- создание диалектологического корпуса лезгинского языка (объемом около 5 тыс. словоупотреблений) и его интеграция с существующим корпусом лезгинского литературного языка.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.