Содержание номера
DOI: https://doi.org/10.29025/2079-6021-2022-2-131-142
Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря
Резюме:
В статье рассматривается опыт разработки и применения автоматического средства оптимизации лингвографической работы по формированию сводных словарей. Невзирая на высокие темпы внедрения автоматической обработки языковой информации в современную словарную практику, многие задачи до сих пор остаются не решёнными. Основной проблемой при создании сводных лексикографических источников является совмещение словников нескольких изданий, поскольку заголовочные единицы в них могут стоять в разных формах, но относиться при этом к одной лексеме; на процедуру совмещения лексикографами затрачивается большое количество времени, и обрабатывать данный материал приходится вручную. Целью исследования являлось решение проблемы выявления нестандартных слов посредством использования морфологического анализатора. Разработанная авторами программа предназначена для автоматического отбора нестандартных слов из списка заголовочных единиц, что позволяет значительно снизить вероятность ошибок, существенно уменьшить время, затрачиваемое на создание сводного словаря, а также свести к минимуму необходимость обрабатывать и интерпретировать единицы вручную. Разработка велась на языке Python 3.8.2 с использованием библиотеки морфологического анализатора pymorphy2 версии 0.9.1. Описываемые в статье алгоритм и программу можно использовать для любого списка слов, из которых необходимо автоматически выделить неначальные словоформы. Созданная программа прошла тестирование на списке из 22738 слов Сводного этимологического словаря «СвЭтиС», среди них было выявлено 979 нестандартных единиц. Среднее время обработки указанного объёма слов составило 1.5 секунды, что доказывает эффективность созданного алгоритма и целесообразность его дальнейшего использования в словарной практике.
Ключевые слова: морфологический анализатор, pymorphy2, компьютерная лексикография, обработка естественного языка, сводный словарь, лингвография, словоформа, словарная статья, заголовочная единица.
Благодарности: Работа выполнена за счет средств Программы стратегического академического лидерства Казанского (Приволжского) федерального университета» (Приоритет-2030).
Для цитирования: Горобец Е.А., Мамонтова А.В. Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря. Актуальные проблемы филологии и педагогической лингвистики. 2021. № 2. С. 131–142.
For citation: Gorobets E.A., Mamontova A.V. Algorithm of Automatic Search for Non-Standard Vocabulary Units when Creating a Comprehnsive Dictionary. Current Issues in Philology and Pedagogical Linguistics. 2021, no 2, pp. 131–142. (In Russ.).
Язык: русский
Об авторе:
Е.А. Горобец 1*, А.В. Мамонтова 2
1,2Казанский (Приволжский) федеральный университет, Казань, Российская Федерация,
420008, Российская Федерация, Казань, ул. Кремлевская, д. 18;
1 ORCID ID: 0000-0002-3859-5543; Author ID: 56414621100;
Researcher ID: N-7983-2013;
2 ORCID ID: 0000-0003-2660-7532;
*e-mail: elena_gorobets@mail.ru
Список литературы:
1. Компьютерная лингвография / К.Р.Галиуллин, Д.Р.Валиахметова, Н.А.Обносова и др. Казань: Изд-во Казан. ун-та, 1995. ISBN 5-7464-1214-7.
2. Karimullina GN, Galiullin KR, Priemysheva MN, Karimullina RN. Lexicographic Analysis of Homonymy in Modern General Dictionaries: The
Case Study of Tatar Language. Journal of Research in Applied Linguistics. 2020; 11 (Special Issue): 72-81. https://doi.org/10.22055/rals.2020.16287.
3. Каменева Н.А. Компьютерная лексикография и составление электронных словарей. Филологические науки. Вопросы теории и практики. 2015; 3-1 (45): 86-89. Доступно по: https://www.gramota.net/materials/2/2015/3-1/22.html. Ссылка активна на 5.05.2022.
4. Silva N da, Chrishman R. The role of frames in the organization of online dictionaries. Calidoscopio 2018; 16(3): 450-459. https://doi.org/10.4013/cld.2018.163.09.
5. Горобец В.И., Кульшарипова Р.Э. Электронный тезаурус терминов, посвященный местоимениям в русском языке. Актуальные проблемы филологии и педагогической лингвистики. 2018; 2 (30): 87-93. https://doi.org/10.29025/2079-6021-2018-2(30)-87-93.
6. Mavrommatidou S, Gavriilidou Z, Markos A. Development and Validation of the Strategy Inventory for Electronic Dictionary Use (S.I.E.D.U.). International Journal of Lexicography. 2019; 32(4): 393-410. https://doi.org/10.1093/ijl/ecz015.
7. Martyanov DA, Galiullin KR, Gorobets EA. The core of professional language in terminographic representation (based on the special vocabulary of the medical sphere). Modern Journal of Language Teaching Methods. 2017; 7(10): 31-36. Доступно по: http://mjltm.org/article-1-73-en.pdf. Ссылка активна на 5.05.2022.
8. Раздуев А.В., Хакиева З.У., Арсалиева Э.Х. Автоматическая обработка текста: теоретико-эмпирические подходы в рамках зарубежной прикладной лингвистики и Digital Humanities. Вестник Пятигорского государственного университета, 2021; 78-83. https://doi.org/10.53531/25420747_2021_3_78.
9. Сорокин А.Б., Кушнарев А.П. Морфологический анализатор текста для выявления полноты информации. Информационные технологии, 2018; 24 (11): 719-724. https://doi.org/10.17587/it.24.719-724
10. Молошников И.А., Рыбка Р.Б., Сбоев А.Г., Гудовских Д.В., Иванов И. Двухуровневая модель нейронной сети глубокого обучения для задачи морфологического разбора предложений русского языка. Вестник Национального исследовательского ядерного университета МИФИ; 2017. 6(6): 555-562. https://doi.org/10.1134/S2304487X17060086
11. Автоматическая обработка текстов на естественном языке и анализ данных / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. М.: Изд-во НИУ ВШЭ; 2017. ISBN 978–5–9909752-1-7.
12. Kuzmenko E. Morphological analysis for Russian: Integration and comparison of taggers. Communications in Computer and Information Science. 2017; 661: 162-171. https://doi.org/10.1007/978-3-319-52920-2_16.
13. Khristoforov S, Bochkarev V, Shevlyakova A. Recognition of parts of speech using the vector of bigram frequencies. Communications in Computer and Information Science, 2020; 1086: 132-142. https://doi.org/10.1007/978-3-030-39575-9_13.
14. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. Communications in Computer and Information Science. 2015; 542: 320-332. https://doi.org/10.1007/978-3-319-26123-2_31.
15. Морфологический анализатор pymorphy2. Доступно по: https://pymorphy2.readthedocs.io/en/stable/index.html. Ссылка активна на 5.05.2022.
16. Anastasyev DG. Exploring pretrained models for joint morpho-syntactic parsing of Russian. Computational Linguistics and Intellectual Technologies; 2020; 1–12. https://doi.org/10.28995/2075-7182-2020-19-1-12.
17. Vissio NC, Zakharov V. A Disambiguator for Pymorphy2 Morphological Analyzer. CEUR Workshop Proceedings 2021; 3090: 81-88. Доступно по: http://ceur-ws.org/Vol-3090/spaper07.pdf. Ссылка активна на 5.05.2022.
18. Khomenko A, Baranova Y, Romanov A, Zadvornov K. Linguistic Modeling as a Basis for Creating Authorship Attribution Software. Computational Linguistics and Intellectual Technologies; 2021; 1063–1074. https://doi.org/10.28995/2075-7182-2021-20-1063-1074.
19. Никишечкин А.П. Дискретная математика и дискретные системы управления. М.: Издательство Юрайт; 2018. ISBN 978-5-534-08596-9
Количество показов: 340
ISBN 2619-029X (Online)