Содержание номера

УДК 811.111
DOI: https://doi.org/10.29025/2079-6021-2018-1(29)-139-148

ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ И МЕТОДЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ

Колмогорова А.В. / Калинин А.А. / Маликова А.В. /

Резюме:

В статье представлены промежуточные результаты проекта по созданию ранжированного классификатора русскоязычных текстов по критерию их эмоциональной тональности. Цель статьи – обсуждение лингвистических принципов и методов компьютерной лингвистики, положенных в основу разработки. Методология. Исследование носит междисциплинарный характер и выстроено в рамках, с одной стороны, лингвистики эмоций, а с другой – технологии сентимент-анализа текстов. Базисным методом для разработки компьютерного классификатора послужил такой алгоритм машинного обучения по прецедентам, как Наивный Байесовский классификатор. Для решения задачи выявления дискриминантных черт восьми классов текстов, каждый из которых вербализует в качестве ведущей одну из восьми эмоций, согласно классификации Г. Левхейма, использовалась модель текста «мешок слов (Bag-of-words)», основанная на автоматическом выявлении статистической значимости лексических единиц для некоторого класса текстов, а также метод экспертного лингвистического анализа. Для составления размеченной коллекции текстов, послужившей затем в качестве основы для тренировочной выборки классификатора, был использован метод экспертного аннотирования посредством краудсорсинга. Результаты, обсуждаемые в публикации, заключаются в выделении дискриминантных черт (features) для дальнейшего использования их в различных алгоритмах машинного обучения в целях автоматической атрибуции текстов к одному из 9 классов: тексты, вербализующие 1) интерес / возбуждение, 2) удовольствие / радость, 3) удивление, 4) страдание / тоска, 5) страх / ужас, 6) стыд /унижение, 7) брезгливость / отвращение, 8) злость / гнев либо тексты, являющиеся «нейтральными». Подчеркивается, что выявленные маркеры эмоций включают в себя как единицы эмотивной лексики, так и лексику эмоций, а также ситуативно эмотивную лексику и дескрипторы внешних проявлений эмоциональных состояний. В заключении делаются выводы о том, что разработка ранжированного классификатора русскоязычных текстов по их эмоциональной тональности является перспективным направлением исследований, которое позволяет по-новому взглянуть на некоторые методологические вопросы теоретической лингвистики, проверив их в практике прикладных исследований.

Ключевые слова: сентимент-анализ, художественный текст, машинное обучение по прецедентам, лингвистическая эмотиология, компьютерная лингвистика, классификация эмоций Г. Левхейма, дискриминантные черты текстов.

Для цитирования: Колмогорова А.В., Калинин А.А., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. №1(29). С. 139-148. DOI: 10.29025/2079–6021-2018-1(29)-139-148.

PDF (RUS)

Язык: русский

Количество показов: 2127

Возврат к списку

ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)

Готовятся к выходу тематические номера журнала:

Индексирование

Содержание номера

ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ И МЕТОДЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ