Содержание последнего номера
Актуальные проблемы филологии и педагогической лингвистики
Научный журнал
ISSN 2079-6021(Print)
ISBN 2619-029X(Online)

Готовятся к выходу тематические номера журнала:

Выпуск 1, 2024 г.:
«Глокальное пространство современной коммуникации»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Выпуск 2, 2024 г.:
«Интернет-лингвистика: системообразующие характеристики и языковой дизайн»

Прием статей – до 10 мая.
Выход номера – 25 июня.

Выпуск 3, 2024 г.:
«Дискурс. Нарратив. Текст»

Прием статей – до 10 августа.
Выход номера – 25 сентября.

Выпуск 4, 2024 г.:
«Aллегория. Метафора. Символ»

Прием статей – до 10 ноября.
Выход номера – 25 декабряя.

Выпуск 1, 2025 г.:
«Развитие лексической системы языка в XXI веке: слово в пространстве изменяющегося мира»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Индексирование

Содержание последнего номера

УДК 519.2:801.82(045)
DOI: https://doi.org/10.29025/2079-6021-2022-2-94-106

Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы




Получена: 05.04.2022 Принята: 25.04.2022 Опубликована онлайн: 25.06.2022

Резюме: В статье дана характеристика лингвистического материала и методов, использованных для создания электронного дистрибутивного словаря на базе исторического корпуса «Манускрипт», который содержит размеченные машиночитаемые транскрипции дошедших до нас славянских кодексов и отрывков X–XV веков. Обсуждаются условия применения статистических методов для дистрибутивного анализа слов древних славянских текстов, формулируются требования к специализированному инструментарию и демонстрации форм визуализации прототипа словаря. Приводятся примеры методов автоматического извлечения слов, имеющих близкое по составу лексическое окружение, из большого массива текстовых данных. Описываются процедуры и инструменты подготовки лингвистических данных (в частности, формирования подкорпусов на основе метаданных и реализованные в модуле n-грамм способы извлечения из корпуса наиболее частотных сочетаний лингвистических единиц), обосновывается использование метода k-skip-n-gram для вычисления векторов слов и метода нахождения косинусного расстояния между векторами. Демонстрируются параметры запросной формы словаря, позволяющие указать тип анализируемой лингвистической единицы (лемму или текстовый прецедент), ее маску и порог косинусного расстояния. Приводится пример выборки для леммы лѣто, включающей перечень слов, имеющих наиболее близкую ему контекстную сочетаемость, значения косинусных расстояний анализируемого и близких по дистрибуции слов, а также перечень слов, встречающихся рядом с анализируемым и искомыми словами. Показан граф выборки, демонстрирующий не только семантические, тематические, ассоциативные аналоги слова лѣто, но и некоторые группы ассоциатов. Анализ материала, методов и результатов позволил сделать выводы о необходимости использовать статистические меры при оценке близости их компонентов для формирования векторов и о некоторых других условиях предобработки лингвистического материала.

Ключевые слова: исторический корпус славянских рукописей X–XV веков, лексическая дистрибуция, корпусный менеджер.

Благодарности: Исследование выполнено при финансовой поддержке Российского научного фонда (проект № 20-18-00206).

Для цитирования: Баранов В.А. Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы. Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 94–106

PDF (RUS)

Язык: русский




Возврат к списку

ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)
^ Наверх