Содержание последнего номера
DOI: https://doi.org/10.29025/2079-6021-2022-2-131-142
Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря
Резюме:
В статье рассматривается опыт разработки и применения автоматического средства оптимизации лингвографической работы по формированию сводных словарей. Невзирая на высокие темпы внедрения автоматической обработки языковой информации в современную словарную практику, многие задачи до сих пор остаются не решёнными. Основной проблемой при создании сводных лексикографических источников является совмещение словников нескольких изданий, поскольку заголовочные единицы в них могут стоять в разных формах, но относиться при этом к одной лексеме; на процедуру совмещения лексикографами затрачивается большое количество времени, и обрабатывать данный материал приходится вручную. Целью исследования являлось решение проблемы выявления нестандартных слов посредством использования морфологического анализатора. Разработанная авторами программа предназначена для автоматического отбора нестандартных слов из списка заголовочных единиц, что позволяет значительно снизить вероятность ошибок, существенно уменьшить время, затрачиваемое на создание сводного словаря, а также свести к минимуму необходимость обрабатывать и интерпретировать единицы вручную. Разработка велась на языке Python 3.8.2 с использованием библиотеки морфологического анализатора pymorphy2 версии 0.9.1. Описываемые в статье алгоритм и программу можно использовать для любого списка слов, из которых необходимо автоматически выделить неначальные словоформы. Созданная программа прошла тестирование на списке из 22738 слов Сводного этимологического словаря «СвЭтиС», среди них было выявлено 979 нестандартных единиц. Среднее время обработки указанного объёма слов составило 1.5 секунды, что доказывает эффективность созданного алгоритма и целесообразность его дальнейшего использования в словарной практике.
Ключевые слова: морфологический анализатор, pymorphy2, компьютерная лексикография, обработка естественного языка, сводный словарь, лингвография, словоформа, словарная статья, заголовочная единица.
Благодарности: Работа выполнена за счет средств Программы стратегического академического лидерства Казанского (Приволжского) федерального университета» (Приоритет-2030).
Для цитирования: Горобец Е.А., Мамонтова А.В. Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря. Актуальные проблемы филологии и педагогической лингвистики. 2021. № 2. С. 131–142.
Язык: русский
ISBN 2619-029X (Online)