Содержание номера
Актуальные проблемы филологии и педагогической лингвистики
Научный журнал
ISSN 2079-6021(Print)
ISBN 2619-029X(Online)
Архив номеров

Готовятся к выходу тематические номера журнала:

Выпуск 1, 2024 г.:
«Глокальное пространство современной коммуникации»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Выпуск 2, 2024 г.:
«Интернет-лингвистика: системообразующие характеристики и языковой дизайн»

Прием статей – до 10 мая.
Выход номера – 25 июня.

Выпуск 3, 2024 г.:
«Дискурс. Нарратив. Текст»

Прием статей – до 10 августа.
Выход номера – 25 сентября.

Выпуск 4, 2024 г.:
«Aллегория. Метафора. Символ»

Прием статей – до 10 ноября.
Выход номера – 25 декабряя.

Выпуск 1, 2025 г.:
«Развитие лексической системы языка в XXI веке: слово в пространстве изменяющегося мира»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Индексирование

Содержание номера

УДК 519.2:801.82(045)
DOI: https://doi.org/10.29025/2079-6021-2022-2-94-106

Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы

Авторы: Баранов В.А. 


Получена: 05.04.2022 Принята: 25.04.2022 Опубликована онлайн: 25.06.2022

Резюме: В статье дана характеристика лингвистического материала и методов, использованных для создания электронного дистрибутивного словаря на базе исторического корпуса «Манускрипт», который содержит размеченные машиночитаемые транскрипции дошедших до нас славянских кодексов и отрывков X–XV веков. Обсуждаются условия применения статистических методов для дистрибутивного анализа слов древних славянских текстов, формулируются требования к специализированному инструментарию и демонстрации форм визуализации прототипа словаря. Приводятся примеры методов автоматического извлечения слов, имеющих близкое по составу лексическое окружение, из большого массива текстовых данных. Описываются процедуры и инструменты подготовки лингвистических данных (в частности, формирования подкорпусов на основе метаданных и реализованные в модуле n-грамм способы извлечения из корпуса наиболее частотных сочетаний лингвистических единиц), обосновывается использование метода k-skip-n-gram для вычисления векторов слов и метода нахождения косинусного расстояния между векторами. Демонстрируются параметры запросной формы словаря, позволяющие указать тип анализируемой лингвистической единицы (лемму или текстовый прецедент), ее маску и порог косинусного расстояния. Приводится пример выборки для леммы лѣто, включающей перечень слов, имеющих наиболее близкую ему контекстную сочетаемость, значения косинусных расстояний анализируемого и близких по дистрибуции слов, а также перечень слов, встречающихся рядом с анализируемым и искомыми словами. Показан граф выборки, демонстрирующий не только семантические, тематические, ассоциативные аналоги слова лѣто, но и некоторые группы ассоциатов. Анализ материала, методов и результатов позволил сделать выводы о необходимости использовать статистические меры при оценке близости их компонентов для формирования векторов и о некоторых других условиях предобработки лингвистического материала.

Ключевые слова: исторический корпус славянских рукописей X–XV веков, лексическая дистрибуция, корпусный менеджер.

Благодарности: Исследование выполнено при финансовой поддержке Российского научного фонда (проект № 20-18-00206).

Для цитирования: Баранов В.А. Дистрибутивный словарь исторического корпуса «Манускрипт»: постановка задачи, материал, методы. Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 94–106

For citation: Baranov V.A. Distributive Dictionary of the Historical Corpus “Manuscript”: Problem Statement, Material, Methods. Current Issues in Philology and Pedagogical Linguistics. 2022, no 2, pp. 94–106. (In Russ.)

PDF (RUS)

Язык: русский


Об авторе:

В.А. Баранов
Ижевский государственный технический университет, 
426069, Российская Федерация, Ижевск, ул. Студенческая, д. 7;
ORCID ID: 0000-0003-1730-6359
Scopus Author ID: 55484827100; Researcher ID: U-6402-2017


Список литературы:
1. Victor Baranov. A Text Corpus of Medieval Manuscripts as a Goal and a Tool for Linguistic Research. Editing Mediaeval Texts from a Different Angle: Slavonic and Multilingual Traditions. Eds. of Lara Sels, Jürgen Fuchsbauer, Vittorio Tomelleri and Ilse de Vos. Paris, Bristol, Ct: Peeters Leuven; 2018. Pp. 283–308.
2. Баранов В.А. Создание и использование исторических корпусов славянских письменных памятников. Scripta & e-Scripta. 2019; 19: 33–57. Доступно по: http://e-scripta.ilit.bas.bg/archives/year-2019/issue-19. Ссылка активна на 10.05.2022.
3. Panchenko A, Romanov P, Morozova O, Naets H, Philippovich A, Romanov A, Fairon C. Serelex: Search and Visualization of Semantically Related Words. Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Springler’s Lecture Notes on Computer Science, 2013, Moscow. Доступно по: https://link.springer.com/chapter/10.1007/978-3-642-36973-5_97. Ссылка активна на 10.05.2022.
4. Кутузов А., Кузьменко Е. RusVectōrēs. Доступно по: https://rusvectores.org/ru/about. Ссылка активна на 10.05.2022.
5. Kutuzov A, Kuzmenko E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. Analysis of Images, Social Networks and Texts. Eds. of D. Ignatov et al. AIST 2016. Communications in Computer and Information Science. 2017; 661. Доступно по: https://rusvectores.org/static/data/webvectors_aist.pdf. Ссылка активна на 10.05.2022.
6. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста. Компьютерная лингвистика и интеллектуальные технологии. 2006. Доступно по: http://www.dialog-21.ru/digests/dialog2006/materials/html/Braslavski.htm. Ссылка активна на 10.05.2022.
7. Захаров В.П., Хохлова М.В. Автоматическое выявление терминологических словосочетаний. Структурная и прикладная лингвистика. 2014; 10: 182–200. Доступно по: https://goo-gl.me/N7i85. Ссылка активна на 10.05.2022.
8. Масевич А.Ц., Захаров В.П. Методы корпусной лингвистики в исторических и культурологических исследованиях. Компьютерная лингвистика и вычислительные онтологии. 2 016: 24–43. Доступно по: https://openbooks.itmo.ru/ru/file/4102/4102.pdf. Ссылка активна на 10.05.2022.
9. Митрофанова О.А., Белик В.В., Кадина В.В. Корпусное исследование сочетаемостных предпочтений частотных лексем русского языка. Компьютерная лингвистика и интеллектуальные технологии. 2008. Доступно по: http:// www.dialog-21.ru/dialog2008/materials /html/56.htm. Ссылка активна на 10.05.2022.
10. Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов. Сб. НТИ. Сер. 2. 2010; 6. Доступно по: http:// http://webground.su/services.php?param=priroda_collac&part=priroda_collac.htm. Ссылка активна на 10.05.2022.
11. Evert S. The statistics of word cooccurences word pairs and collocations. 2005. Доступно по: https://elib.uni-stuttgart.de/bitstream/11682/2573/1/Evert2005phd. pdf. Ссылка активна на 10.05.2022.
12. Forchini, Pierfranca, and Amanda Murphy. N-grams in comparable specialized corpora. Perspectives on phraseology, translation and pedagogy. International Journal of Corpus Linguistics. 2008; 13(3): 351–367. DOI: https://doi.org/10.1075/ijcl.13.3.06for. Доступно по: https://benjamins.com/catalog/ijcl.13.3.06for. Ссылка активна на 10.05.2022.
13. Manning, Christopher, and Hinrich Schütze. Foundations of Statistical Natural Language Processing. 2000. Доступно по: https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf. Ссылка активна на 10.05.2022.
14. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.
15. Manning C, Raghavan P, Schütze H. Introduction to Information Retrieval. Cambridge University Press. 2008. Доступно по: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf. Ссылка активна на 10.05.2022.
16. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.
17. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.
18. Федюшкин Н.А., Федосин С.А. О выборе методов векторизации текстовой информации. Научно-технический вестник Поволжья. 2019; 6: 129–134. Доступно по: https://www.elibrary.ru/item.asp?id=41114743. Ссылка активна на 10.05.2022.
19. Глазкова А.В. Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке. Труды ИСП РАН. 2018; 30(6): 221–236. DOI: https://doi.org/10.15514/ISPRAS-2018-30(6)-12. Доступно по: https://www.elibrary.ru/item.asp?id=36825273. Ссылка активна на 10.05.2022.
20. Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов. Труды Института системного программирования РАН. 2017; 29(2): 161–200. Доступно по: https://www.elibrary.ru/item.asp?id=29118082. Ссылка активна на 10.05.2022.
21. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.
22. Глазкова А.В. Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке. Труды ИСП РАН. 2018; 30(6): 221–236. DOI: https://doi.org/10.15514/ISPRAS-2018-30(6)-12. Доступно по: http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=tisp&paperid=385&o.... Ссылка активна на 10.05.2022.
23. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.
24. Саламаха О. Алгоритм LSA для поиска похожих документов. Доступно по: https://netpeak.net/ru/blog/algoritm-lsa-dlya-poiska-pohozhih-dokumentov/. Ссылка активна на 10.05.2022.
25. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: ООО “И.Д. Вильямс”; 2011. Доступно по: https://goo-gl.me/PNQBE. Ссылка активна на 10.05.2022.


Количество показов: 250

Возврат к списку

ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)
^ Наверх