Семиотический анализ текстов и интерпретация знаковых систем в цифровую эпоху: Sentiment-анализ с использованием платформы KNIME
https://doi.org/10.32603/2412-8562-2025-11-4-121-138
Аннотация
Введение. Целью статьи является изучение возможности интеграции семиотических подходов и методов машинного обучения для автоматизированного анализа тональности текстов (Sentiment-анализа). Sentiment-анализ текста является популярным направлением лингвистики на стыке с компьютерными науками и анализом данных. Новизна работы заключается в попытке интерпретации результатов машинного обучения с опорой на содержание текстов отзывов как знаковых систем, выявляя их лексические, синтаксические и прагматические характеристики.
Методология и источники. Исследование опирается как на фундаментальные основы семантики, синтактики и прагматики, так и на современные подходы к автоматизации обработки текстовой информации и применению математических методов для обоснования речевых явлений. Материалом исследования послужил свободно распространяемый набор данных отзывов на кинофильмы с платформы IMDB. В качестве инструмента автоматизации применяется система KNIME для анализа данных в парадигме «No-coding» (без кодирования). В статье представлен рабочий поток, включающий этапы предобработки данных, построения моделей классификации, а также оценки их эффективности, предложена лингвистическая интерпретация ошибок автоматической классификации отзывов.
Результаты и обсуждение. Результаты демонстрируют высокую точность классификации (до 92,0 %) и способность алгоритмов выявлять ключевые лексические и синтаксические маркеры, формирующие эмоциональную окраску текста. Исследование расширяет границы традиционной семиотики, интегрируя методы машинного обучения и анализа больших данных, а также подчеркивает практическую ценность использования KNIME в задачах обработки естественного языка.
Заключение. В статье дается детализированное описание алгоритма автоматизации Sentiment-анализа отзывов на кинофильмы с учетом преимуществ и потенциальных сложностей такого подхода для интерпретации текста. Перспективы дальнейших исследований включают применение предложенных методов к многоязычным корпусам и анализу мультимодальных данных, что открывает новые возможности для изучения знаковых систем в условиях цифровой коммуникации. Предложенная методика может найти применение в коммерческой сфере для выявления настроений пользователей товаров, услуг, приложений, книг, фильмов и т.д., что повышает интерес к лингвистической науке, а именно к автоматическому анализу тональности или Sentiment-анализу.
Ключевые слова
Об авторах
Е. В. ИсаеваРоссия
Исаева Екатерина Владимировна – кандидат филологических наук (2013), доцент (2019), заведующая кафедрой английского языка профессиональной коммуникации
ул. Букирева, д. 15, г. Пермь, 614068.
Автор 86 научных публикаций.
Сфера научных интересов: дискурсивная лингвистика, когнитивное терминоведение, интеллектуальный анализ текста, цифровая лингвистика.
С. В. Семенов
Россия
Семенов Сергей Владимирович – студент (4-й курс) направления «Лингвистика»
ул. Букирева, д. 15, г. Пермь, 614068
Сфера научных интересов: лингвистика, переводоведение, анализ тональности текста, Sentiment-анализ.
Д. Л. Черных
Россия
Черных Денис Львович – студент (4-й курс) направления «Лингвистика»
ул. Букирева, д. 15, г. Пермь, 614068.
Сфера научных интересов: цифровая лингвистика, анализ тональности текста, Sentiment-анализ.
А. В. Гудовщиков
Россия
Гудовщиков Алексей Викторович – студент (4-й курс) направления «Лингвистика»
ул. Букирева, д. 15, г. Пермь, 614068.
Сфера научных интересов: лингвистика, переводоведение, анализ тональности текста, Sentiment-анализ, интерпретация текста.
Список литературы
1. Popova E. O., Volkova Y. A. Identification of Extremism Signs through the Analysis of the Text Tonality // Functional Aspects of Intercultural Communication. Translation and Interpreting Issues. Vol. 6: XI Int. Sci. Interdisciplinary Conf. on Research and Methodology, Moscow, 24 Nov. 2023 / RUDN Univ. Moscow, 2023. С. 66–76. DOI: 10.22363/2712-7974-2019-6-66-76.
2. Analysis of Tonality of Text Using Machine Learning / D. Gautham Sai, Govind Reddy S, D. Greeshma et al. // IJRASET. 2023. Vol. 11, iss. XII. P. 973–979. DOI: 10.22214/ijraset.2023.57492.
3. Baydogan C., Alatas B. Sentiment analysis using Konstanz Information Miner in social networks // 6th Int. Symposium on Digital Forensic and Security (ISDFS), Antalya, 22–25 March 2018 / IEEE. Antalya, 2018. DOI: 10.1109/ISDFS.2018.8355395.
4. Taboada M. Sentiment Analysis: An Overview from Linguistics // Annual Review of Linguistics. 2016. Vol. 2. P. 325–347. DOI: 10.1146/annurev-linguistics-011415-040518.
5. Benamara F., Taboada M., Mathieu Y. Evaluative Language Beyond Bags of Words: Linguistic Insights and Computational Applications // Computational Linguistics. 2017. Vol. 43, № 1. С. 201–264. DOI: 10.1162/COLI_a_00278.
6. A Meta-Framework for Modeling the Human Reading Process in Sentiment Analysis / R. Baly, R. Hobeica, H. Hajj et al. // ACM Transactions on Information Systems. 2017. Vol. 35, iss. 1: 7. DOI: 10.1145/2950050.
7. Lu B. On computing textual sentiment with linguistic knowledge and semi-supervised learning: Dr. Sci. (Philosophy) Thesis / Hong Kong. City Univ. of Hong Kong, 2013.
8. Stepanov Ju. S. Some Burning Issues of Contemporary Semiotics // Linguistics. 1974. Vol. 12, iss. 141. P. 53–66. DOI: 10.1515/ling.1974.12.141.53.
9. Veron E. Ideology and Social Sciences: A Communicational Approach // Semiotica. 1971. Т. 3, iss. 1. P. 59–76. DOI: https://doi.org/10.1515/semi.1971.3.1.59.
10. Allwood J. A Bird’s Eye View of Pragmatics // Papers from the Fourth Scandinavian Conference of Linguistics. Odense: Odense Univ. Press, 1978. P. 145–159.
11. Гриневич О. А. Динамика функционирования усадебного сверхтекста русской литературы: семантика, синтактика, прагматика // Известия Смолен. гос. ун-та. 2020. № 1 (49). С. 46–60. DOI: 10.35785/2072-9464-2020-49-1-46-60.
12. Hogenboom A. Sentiment Analysis of Text Guided by Semantics and Structure. Rotterdam: Erasmus Univ. Rotterdam, 2009.
13. A New Approach for Carrying Out Sentiment Analysis of Social Media Comments Using Natural Language Processing / M. Ranjan, S. Tiwari, A. Md Sattar, N. S. Tatkar // Engineering Proceedings. 2023. Vol. 59, iss. 1: 181. DOI: 10.3390/engproc2023059181.
14. Vilares D. Sentiment analysis for reviews and microtexts based on lexico-syntactic knowledge. 2013. URL: https://www.scienceopen.com/hosted-document?doi=10.14236/ewic/FDIA2013.8 (дата обращения: 27.01.2025).
15. Chauhan D., Sutaria K., Doshi R. Impact of Semiotics on Multidimensional Sentiment Analysis on Twitter: A Survey // Second Int. Conf. on Computing Methodologies and Communication (ICCMC), 15–16 Feb. 2018 / Erode. IEEE, 2018. P. 671–674. DOI: 10.1109/ICCMC.2018.8487851.
16. Liebmann M., Hagenau M., Neumann D. Information Processing in Electronic Markets: Measuring Subjective Interpretation Using Sentiment Analysis // ICIS 2012 Proceedings. 2012. URL: https://aisel.aisnet.org/icis2012/proceedings/KnowledgeManagement/9 (дата обращения: 27.01.2025).
17. Singh B., Kushwaha N., Vyas O. P. An interpretation of sentiment analysis for enrichment of Business Intelligence // IEEE Region 10 Conference (TENCON), Singapore, 22–25 Nov. 2016 / Singapore, IEEE, 2016. P. 18–23. DOI: 10.1109/TENCON.2016.7847950.
18. Thiel K. Introduction to the KNIME Text Processing Extension // Text Mining and Visualization: Case Studies Using Open-Source Tools. 1st ed. / ed. by M. Hofmann, A. Chisholm. London; NY: Chapman and Hall, 2016. P. 63–80. DOI: https://doi.org/10.1201/b19007.
19. Meinl T., Jagla B., Berthold M. R. Integrated data analysis with KNIME // Open Source Software in Life Science Research / ed by L. Harland, M. Forster. Cambridge: Woodhead Publishing Ltd., 2012. pp. 151–171. DOI: https://doi.org/10.1533/9781908818249.151.
20. Dorr R. A., Casal J. J., Toriano R. Text Mining of Biomedical Articles Using the Konstanz Information Miner (KNIME) Platform: Hemolytic Uremic Syndrome as a Case Study // Healthcare Informatics Research. 2022. Vol. 28, no. 3. P. 276–283. DOI: 10.4258/hir.2022.28.3.276.
21. Towards Simplification of Analytical Workflows With Semantics at Siemens (Extended Abstract) / E. Kharlamov, G. Mehdi, O. Savkovic et al. // IEEE Int. Conf. on Big Data (Big Data), Seattle, WA,10–13 Dec. 2018 / IEEE. Seattle, 2018. P. 1951–1954. DOI: 10.1109/BigData.2018.8622652.
22. Smart Technologies for Genre Closeness Evaluation / E. Isaeva, O. Mnazhula, O. Baiburova, R. Crawford // Lecture Notes in Networks and Systems. 2022. Vol. 342, Cham: Springer. DOI: 10.1007/978-3-030-89477-1_60.
23. Isaeva E. Topic Modelling in Computer Security Discourse: a Case Study of Whitepaper Publications and News Feeds // Perm Univ. Herald. Russian and Foreign Philology. 2022. Vol. 14, iss. 2. P. 18–26. DOI: 10.17072/2073-6681-2022-2-18-26.
24. Valtolina S., Barricelli B. R., Dittrich Y. Participatory knowledge-management design: A semiotic approach // J. of Visual Languages & Computing. 2012. Vol. 23, iss. 2. P. 103–115. DOI: https://doi.org/10.1016/j.jvlc.2011.11.007.
25. 03_Sentiment_Classification rev 1 – KNIME Community Hub // KNIME Open for Innovation. 23.06.2024. URL: https://hub.knime.com/rfeigel/spaces/Public/03_Sentiment_Classification%20rev%201~4i6l8oqEGQ_ngBU5/current-state (дата обращения: 27.01.2025).
Рецензия
Для цитирования:
Исаева Е.В., Семенов С.В., Черных Д.Л., Гудовщиков А.В. Семиотический анализ текстов и интерпретация знаковых систем в цифровую эпоху: Sentiment-анализ с использованием платформы KNIME. Дискурс. 2025;11(4):121-138. https://doi.org/10.32603/2412-8562-2025-11-4-121-138
For citation:
Isaeva E.V., Semenov S.V., Chernykh D.L., Gudovshikov A.V. Semiotic Analysis of Texts and Interpretation of Sign Systems in the Digital Era: Sentiment-analysis Using the KNIME Platform. Discourse. 2025;11(4):121-138. (In Russ.) https://doi.org/10.32603/2412-8562-2025-11-4-121-138