Содержание последнего номера
Актуальные проблемы филологии и педагогической лингвистики
Научный журнал
ISSN 2079-6021(Print)
ISBN 2619-029X(Online)

Готовятся к выходу тематические номера журнала:

Выпуск 1, 2024 г.:
«Глокальное пространство современной коммуникации»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Выпуск 2, 2024 г.:
«Интернет-лингвистика: системообразующие характеристики и языковой дизайн»

Прием статей – до 10 мая.
Выход номера – 25 июня.

Выпуск 3, 2024 г.:
«Дискурс. Нарратив. Текст»

Прием статей – до 10 августа.
Выход номера – 25 сентября.

Выпуск 4, 2024 г.:
«Aллегория. Метафора. Символ»

Прием статей – до 10 ноября.
Выход номера – 25 декабряя.

Выпуск 1, 2025 г.:
«Развитие лексической системы языка в XXI веке: слово в пространстве изменяющегося мира»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Индексирование

Содержание последнего номера

УДК 81’33, 81’322
DOI: https://doi.org/10.29025/2079-6021-2022-2-131-142

Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря




Получена: 19.04.2022 Принята: 12.05.2022 Опубликована онлайн: 25.06.2022

Резюме: В статье рассматривается опыт разработки и применения автоматического средства оптимизации лингвографической работы по формированию сводных словарей. Невзирая на высокие темпы внедрения автоматической обработки языковой информации в современную словарную практику, многие задачи до сих пор остаются не решёнными. Основной проблемой при создании сводных лексикографических источников является совмещение словников нескольких изданий, поскольку заголовочные единицы в них могут стоять в разных формах, но относиться при этом к одной лексеме; на процедуру совмещения лексикографами затрачивается большое количество времени, и обрабатывать данный материал приходится вручную. Целью исследования являлось решение проблемы выявления нестандартных слов посредством использования морфологического анализатора. Разработанная авторами программа предназначена для автоматического отбора нестандартных слов из списка заголовочных единиц, что позволяет значительно снизить вероятность ошибок, существенно уменьшить время, затрачиваемое на создание сводного словаря, а также свести к минимуму необходимость обрабатывать и интерпретировать единицы вручную. Разработка велась на языке Python 3.8.2 с использованием библиотеки морфологического анализатора pymorphy2 версии 0.9.1. Описываемые в статье алгоритм и программу можно использовать для любого списка слов, из которых необходимо автоматически выделить неначальные словоформы. Созданная программа прошла тестирование на списке из 22738 слов Сводного этимологического словаря «СвЭтиС», среди них было выявлено 979 нестандартных единиц. Среднее время обработки указанного объёма слов составило 1.5 секунды, что доказывает эффективность созданного алгоритма и целесообразность его дальнейшего использования в словарной практике. 


Ключевые слова: морфологический анализатор, pymorphy2, компьютерная лексикография, обработка естественного языка, сводный словарь, лингвография, словоформа, словарная статья, заголовочная единица.

Благодарности: Работа выполнена за счет средств Программы стратегического академического лидерства Казанского (Приволжского) федерального университета» (Приоритет-2030).

Для цитирования: Горобец Е.А., Мамонтова А.В. Алгоритм автоматического поиска нестандартных словарных единиц при создании сводного словаря. Актуальные проблемы филологии и педагогической лингвистики. 2021. № 2. С. 131–142.

PDF (RUS)

Язык: русский




Возврат к списку

ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)
^ Наверх