Содержание номера
Актуальные проблемы филологии и педагогической лингвистики
Научный журнал
ISSN 2079-6021(Print)
ISBN 2619-029X(Online)
Архив номеров

Готовятся к выходу тематические номера журнала:

Выпуск 2, 2024 г.:
«Интернет-лингвистика: системообразующие характеристики и языковой дизайн»

Прием статей – до 10 мая.
Выход номера – 25 июня.

Выпуск 3, 2024 г.:
«Дискурс. Нарратив. Текст»

Прием статей – до 10 августа.
Выход номера – 25 сентября.

Выпуск 4, 2024 г.:
«Aллегория. Метафора. Символ»

Прием статей – до 10 ноября.
Выход номера – 25 декабряя.

Выпуск 1, 2025 г.:
«Развитие лексической системы языка в XXI веке: слово в пространстве изменяющегося мира»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Индексирование

Содержание номера

УДК 81’33, 81’322
DOI: https://doi.org/10.29025/2079-6021-2022-2-131-142

Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря

Авторы: Горобец Е.А., Мамонтова А.В. 


Получена: 19.04.2022 Принята: 12.05.2022 Опубликована онлайн: 25.06.2022

Резюме: В статье рассматривается опыт разработки и применения автоматического средства оптимизации лингвографической работы по формированию сводных словарей. Невзирая на высокие темпы внедрения автоматической обработки языковой информации в современную словарную практику, многие задачи до сих пор остаются не решёнными. Основной проблемой при создании сводных лексикографических источников является совмещение словников нескольких изданий, поскольку заголовочные единицы в них могут стоять в разных формах, но относиться при этом к одной лексеме; на процедуру совмещения лексикографами затрачивается большое количество времени, и обрабатывать данный материал приходится вручную. Целью исследования являлось решение проблемы выявления нестандартных слов посредством использования морфологического анализатора. Разработанная авторами программа предназначена для автоматического отбора нестандартных слов из списка заголовочных единиц, что позволяет значительно снизить вероятность ошибок, существенно уменьшить время, затрачиваемое на создание сводного словаря, а также свести к минимуму необходимость обрабатывать и интерпретировать единицы вручную. Разработка велась на языке Python 3.8.2 с использованием библиотеки морфологического анализатора pymorphy2 версии 0.9.1. Описываемые в статье алгоритм и программу можно использовать для любого списка слов, из которых необходимо автоматически выделить неначальные словоформы. Созданная программа прошла тестирование на списке из 22738 слов Сводного этимологического словаря «СвЭтиС», среди них было выявлено 979 нестандартных единиц. Среднее время обработки указанного объёма слов составило 1.5 секунды, что доказывает эффективность созданного алгоритма и целесообразность его дальнейшего использования в словарной практике. 


Ключевые слова: морфологический анализатор, pymorphy2, компьютерная лексикография, обработка естественного языка, сводный словарь, лингвография, словоформа, словарная статья, заголовочная единица.

Благодарности: Работа выполнена за счет средств Программы стратегического академического лидерства Казанского (Приволжского) федерального университета» (Приоритет-2030).

Для цитирования: Горобец Е.А., Мамонтова А.В. Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря. Актуальные проблемы филологии и педагогической лингвистики. 2021. № 2. С. 131–142.

For citation: Gorobets E.A., Mamontova A.V. Algorithm of Automatic Search for Non-Standard Vocabulary Units when Creating a Comprehnsive Dictionary. Current Issues in Philology and Pedagogical Linguistics. 2021, no 2, pp. 131–142. (In Russ.).

PDF (RUS)

Язык: русский


Об авторе:

Е.А. Горобец 1*, А.В. Мамонтова 2
1,2Казанский (Приволжский) федеральный университет, Казань, Российская Федерация, 
420008, Российская Федерация, Казань, ул. Кремлевская, д. 18; 
1 ORCID ID: 0000-0002-3859-5543; Author ID: 56414621100; 
Researcher ID: N-7983-2013;
2 ORCID ID: 0000-0003-2660-7532;
 *e-mail: elena_gorobets@mail.ru


Список литературы:
1. Компьютерная лингвография / К.Р.Галиуллин, Д.Р.Валиахметова, Н.А.Обносова и др. Казань: Изд-во Казан. ун-та, 1995. ISBN 5-7464-1214-7.
2. Karimullina GN, Galiullin KR, Priemysheva MN, Karimullina RN. Lexicographic Analysis of Homonymy in Modern General Dictionaries: The 
Case Study of Tatar Language. Journal of Research in Applied Linguistics. 2020; 11 (Special Issue): 72-81. https://doi.org/10.22055/rals.2020.16287.
3. Каменева Н.А. Компьютерная лексикография и составление электронных словарей. Филологические науки. Вопросы теории и практики. 2015; 3-1 (45): 86-89. Доступно по: https://www.gramota.net/materials/2/2015/3-1/22.html. Ссылка активна на 5.05.2022.
4. Silva N da, Chrishman R. The role of frames in the organization of online dictionaries. Calidoscopio 2018; 16(3): 450-459. https://doi.org/10.4013/cld.2018.163.09.
5. Горобец В.И., Кульшарипова Р.Э. Электронный тезаурус терминов, посвященный местоимениям в русском языке. Актуальные проблемы филологии и педагогической лингвистики. 2018; 2 (30): 87-93. https://doi.org/10.29025/2079-6021-2018-2(30)-87-93.
6. Mavrommatidou S, Gavriilidou Z, Markos A. Development and Validation of the Strategy Inventory for Electronic Dictionary Use (S.I.E.D.U.). International Journal of Lexicography. 2019; 32(4): 393-410. https://doi.org/10.1093/ijl/ecz015.
7. Martyanov DA, Galiullin KR, Gorobets EA. The core of professional language in terminographic representation (based on the special vocabulary of the medical sphere). Modern Journal of Language Teaching Methods. 2017; 7(10): 31-36. Доступно по: http://mjltm.org/article-1-73-en.pdf. Ссылка активна на 5.05.2022.
8. Раздуев А.В., Хакиева З.У., Арсалиева Э.Х. Автоматическая обработка текста: теоретико-эмпирические подходы в рамках зарубежной прикладной лингвистики и Digital Humanities. Вестник Пятигорского государственного университета, 2021; 78-83. https://doi.org/10.53531/25420747_2021_3_78.
9. Сорокин А.Б., Кушнарев А.П. Морфологический анализатор текста для выявления полноты информации. Информационные технологии, 2018; 24 (11): 719-724. https://doi.org/10.17587/it.24.719-724
10. Молошников И.А., Рыбка Р.Б., Сбоев А.Г., Гудовских Д.В., Иванов И. Двухуровневая модель нейронной сети глубокого обучения для задачи морфологического разбора предложений русского языка. Вестник Национального исследовательского ядерного университета МИФИ; 2017. 6(6): 555-562. https://doi.org/10.1134/S2304487X17060086
11. Автоматическая обработка текстов на естественном языке и анализ данных / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. М.: Изд-во НИУ ВШЭ; 2017. ISBN 978–5–9909752-1-7.
12. Kuzmenko E. Morphological analysis for Russian: Integration and comparison of taggers. Communications in Computer and Information Science. 2017; 661: 162-171. https://doi.org/10.1007/978-3-319-52920-2_16.
13. Khristoforov S, Bochkarev V, Shevlyakova A. Recognition of parts of speech using the vector of bigram frequencies. Communications in Computer and Information Science, 2020; 1086: 132-142. https://doi.org/10.1007/978-3-030-39575-9_13.
14. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. Communications in Computer and Information Science. 2015; 542: 320-332. https://doi.org/10.1007/978-3-319-26123-2_31
15. Морфологический анализатор pymorphy2. Доступно по: https://pymorphy2.readthedocs.io/en/stable/index.html. Ссылка активна на 5.05.2022.
16. Anastasyev DG. Exploring pretrained models for joint morpho-syntactic parsing of Russian. Computational Linguistics and Intellectual Technologies; 2020; 1–12. https://doi.org/10.28995/2075-7182-2020-19-1-12.
17. Vissio NC, Zakharov V. A Disambiguator for Pymorphy2 Morphological Analyzer. CEUR Workshop Proceedings 2021; 3090: 81-88. Доступно по: http://ceur-ws.org/Vol-3090/spaper07.pdf. Ссылка активна на 5.05.2022.
18. Khomenko A, Baranova Y, Romanov A, Zadvornov K. Linguistic Modeling as a Basis for Creating Authorship Attribution Software. Computational Linguistics and Intellectual Technologies; 2021; 1063–1074. https://doi.org/10.28995/2075-7182-2021-20-1063-1074.
19. Никишечкин А.П. Дискретная математика и дискретные системы управления. М.: Издательство Юрайт; 2018. ISBN 978-5-534-08596-9


Количество показов: 340

Возврат к списку

ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)
^ Наверх