• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Паспорт проекта

I. Цели и задачи проекта

Целями исследования является
• подготовка материалов для социолингвистического атласа Дагестана,
• пополнение корпусов двух языков нахско-дагестанской семьи: лезгинского и удинского.

Совмещение этих двух целей в одном проекте связано с тем, что социолингвистические исследования с методологической точки зрения удобно проводить параллельно с лингвистическими. Социолингвистическое измерение (данные о многоязычной ситуации конкретного региона) дает необходимый ракурс для анализа языковых особенностей диалекта данного региона, в то время как исследование языка региона помогает верифицировать данные социолингвистических исследований. Совмещение этих задач полезно для студентов-участников проекта, поскольку дает им навыки применения разных методов в работе с языками.

В рамках достижения цели подготовки материалов для социолингвистического атласа Дагестана предполагается решение следующих задач.

1. Социолингвистическое направление – создание количественной модели многоязычия следующих групп селений Дагестана:

  • Арчиб, Шалиб и Читаб (местные языки: арчинский, лакский и аварский)
  • Хив, Лака, Архит и Куг (местные языки: табасаранский и лезгинский)
  • Маллакент, Чумли, Янгикент и Тюменлер (местные языки – даргинский и кумыкский)
  • Мегеб и Убох (местные языки – мегебский и аварский)


2. Корпусное направление – работа над следующими корпусами дагестанских языков:

  • пополнение корпуса лезгинского литературного языка
  • усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка
  • пополнение корпуса удинского языка
  • создание диалектологического корпуса лезгинского языка и его интеграция с существующим корпусом лезгинского литературного языка


II. Методология и методы исследований

Методы исследования необходимо разделить на две группы:
(1) методы исследования структуры многоязычия Дагестана;
(2) методы создания корпусов дагестанских языков.

1. Методы исследования структуры многоязычия Дагестана для создания социолингвистического атласа Дагестана

1.1. Методы сбора данных

Данные о многоязычии Дагестана собираются методом полевого исследования отдельных регионов Дагестана. Для этого

  • выбирается регион, который должен представлять собой кластер из нескольких сел традиционного проживания, которые находятся на расстоянии пешего хода одно от другого и представляют не менее двух языков
  • в каждом регионе необходимо провести не менее 10 дней, обследовав все деревни кластера на предмет языкового репертуара жителей. Обследование проводится путем анкетирования местных жителей, причем особенностью анкетирования является вопрос о языковом репертуаре не только самих респондентов, но и их старших, в том числе покойных родственников. Методом исследования, таким образом, является работа с семейной памятью, что позволяет до определенной степени реконструировать структуру многоязычия в селе вплоть до конца 19 века.

1.2. Методы обработки данных

Cобранные данные вносятся в анкету Excel и обрабатываются количественно с целью выяснения того, какой процент населения какими языками владел в определенные периоды на основании

  • создается описание языковой ситуации региона в виде статьи объемом около 10 000 знаков (на английском языке, поскольку издание Атласа планируется по-английски) по следующему план.


2. Методы создания корпусов дагестанских языков

2.1. Дигитализация лингвистических материалов:

  • ввод в компьютер текстов (в кириллической орфографии) на удинском языке из имеющегося у участников проекта рукописного архива
  • набор текстов (в кириллической орфографии) на диалектах лезгинского языка и их переводов, доступных из опубликованных источников
  • ручная коррекция ошибок в текстах на лезгинском литературном языке, автоматически распознанных при помощи программы ABBYY FineReader
  • обработка словарей лезгинского языка и работ по лезгинской диалектологии и ввод слов в лексическую базу данных


2.2. Компьютерная обработка оцифрованных лингвистических материалов:

  • автоматическая конвертация материалов в кириллической орфографии в стандартную латинизированую транскрипцию
  • приписывание семантической (таксономический класс существительных и глаголов) и синтаксической (переходность) информации лексемам в грамматическом словаре лезгинского литературного языка
  • автоматическое аннотирование текстов на лезгинском литературном и удинском языках (приписывание лингвистически релевантной информации словоформам в тексте: лемма, часть речи, словоизменительные категории, таксономический класс лексемы, аргументный тип глагола, русский и английский переводы леммы) при помощи программы UniParser 1.0 и индексация аннотированных материалов в поисковом движке EANC
  • полуавтоматическое аннотирование текстов на диалектах лезгинского языка
  • размещение корпусов в открытом доступе в интернете


III. Предполагаемые результаты исследования

В рамках создания социолингвистического атласа Дагестана будут получены следующие результаты.

  • Произведена количественная обработка баз данных по следующим кластерам:
  1. Хив – Лака – Архит – Куг (табасаранский и лезгинский)
  2. Мегеб – Убух (мегебский и аварский)
  3. Маллакент – Чумли – Янгикент – Тюменлер (даргинский и кумыкский)
  4. Чираг – Рича (даргинский и агульский)
  • Созданы главы Атласа по четырем названным кластерам. Каждая глава состоит из карты региона с количественными показателями многоязычия до 1919 года рождения и после 1919 года рождения и статьи, описывающей языковую ситуацию региона и динамику развития этой ситуации за 20-й век.
  • Организована и проведена летняя полевая поездка в Дагестан с целью сбора данных по новому кластеру. Предположительный регион – Ури, Камахал, Мукар (лакские села), Шитлиб, Шангода, Бухты (аварские).
  • Создана и количественно обработана база данных по новому кластеру сел.


В рамках создания корпусов дагестанских языков будут получены следующие результаты.

  • усовершенствование лингвистической аннотации текстов в корпусе лезгинского литературного языка: снабжение семантической и частично синтаксической аннотацией (в настоящее время только морфологическая аннотирование)
  • пополнение разрабатываемого в рамках программы РАН «Корпусная лингвистика» корпуса удинского языка текстами из рукописного архива М. Кечаари объемом не менее 70 тыс. словоупотреблений
  • создание диалектологического корпуса лезгинского языка (объемом около 5 тыс. словоупотреблений) и его интеграция с существующим корпусом лезгинского литературного языка.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.