Содержание последнего номера
DOI: https://doi.org/10.29025/2079-6021-2022-2-94-106
Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы
Резюме:
В статье дана характеристика лингвистического материала и методов, использованных для создания электронного дистрибутивного словаря на базе исторического корпуса «Манускрипт», который содержит размеченные машиночитаемые транскрипции дошедших до нас славянских кодексов и отрывков X–XV веков. Обсуждаются условия применения статистических методов для дистрибутивного анализа слов древних славянских текстов, формулируются требования к специализированному инструментарию и демонстрации форм визуализации прототипа словаря. Приводятся примеры методов автоматического извлечения слов, имеющих близкое по составу лексическое окружение, из большого массива текстовых данных. Описываются процедуры и инструменты подготовки лингвистических данных (в частности, формирования подкорпусов на основе метаданных и реализованные в модуле n-грамм способы извлечения из корпуса наиболее частотных сочетаний лингвистических единиц), обосновывается использование метода k-skip-n-gram для вычисления векторов слов и метода нахождения косинусного расстояния между векторами. Демонстрируются параметры запросной формы словаря, позволяющие указать тип анализируемой лингвистической единицы (лемму или текстовый прецедент), ее маску и порог косинусного расстояния. Приводится пример выборки для леммы лѣто, включающей перечень слов, имеющих наиболее близкую ему контекстную сочетаемость, значения косинусных расстояний анализируемого и близких по дистрибуции слов, а также перечень слов, встречающихся рядом с анализируемым и искомыми словами. Показан граф выборки, демонстрирующий не только семантические, тематические, ассоциативные аналоги слова лѣто, но и некоторые группы ассоциатов. Анализ материала, методов и результатов позволил сделать выводы о необходимости использовать статистические меры при оценке близости их компонентов для формирования векторов и о некоторых других условиях предобработки лингвистического материала.
Ключевые слова:
исторический корпус славянских рукописей X–XV веков, лексическая дистрибуция, корпусный менеджер.
Благодарности: Исследование выполнено при финансовой поддержке Российского научного фонда (проект № 20-18-00206).
Для цитирования: Баранов В.А. Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы. Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 94–106
Язык: русский
ISBN 2619-029X (Online)