Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения
https://doi.org/10.21122/2309-4923-2025-1-38-43
Аннотация
В работе исследуется задача распознавания эмоций в речи с помощью метода проектирования и отбора речевых признаков. В качестве исходных аудио признаков использовались мел-частотные кепстральные коэффициенты. В работе предлагается подход, в основе которого лежит идея переноса обучения, заключается в использовании метода пошагового исключения признаков при помощи статистических моделей – классификаторов. Отобранное подмножество признаков затем используется для обучения полносвязных нейронных сетей прямого распространения. Такой подход позволяет значительно уменьшить размер исходного признакового пространства и одновременно повысить качество предсказаний моделей. В качестве наборов данных для постановки экспериментов были использованы TESS и RAVDESS. Метрикой оценки качества классификаторов послужила невзвешенная средняя полнота (unweighted average recall – UAR). Результаты экспериментов являются многообещающими (UAR для TESS = 82 %, UAR для RAVDESS = 53 %), тем самым демонстрируя перспективность предложенного подхода к задаче классификации эмоций по речи.
Об авторах
Д. B. КраснопрошинБеларусь
Краснопрошин Д.В., аспирант каф. электронных вычислительных средств
г. Минск
М. И. Вашкевич
Беларусь
Вашкевич М.И., д-р техн. наук, проф. каф. электронных вычислительных средств
г. Минск
Список литературы
1. Issa D. Speech emotion recognition with deep convolutional neural networks / D. Issa, M. Demirci, A. Yazici // Biomedical Signal Processing and Control. – 2020. – Vol. 59. – Pp. 1-11.
2. Baruah M., Banerjee B. Speech emotion recognition via generation using an attention-based variational recurrent neural network // Proceedings of the INTERSPEECH. – 2022. – Pp. 4710-4714.
3. Краснопрошин Д.В., Вашкевич М.И. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков // Доклады БГУИР. – 2024. – Т. 22. – № 3. – С. 93-100.
4. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А.А. Слинкина. М.: ДМК Пресс, 2015. 400 с.
5. Tsanas A. et al. Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease // IEEE transactions on biomedical engineering. – 2012. – Т. 59. – № 5. – P. 1264-1271.
6. Huang S. H. Supervised feature selection: A tutorial //Artif. Intell. Res. – 2015. – Т. 4. – № 2. – С. 22-37.
7. Джеймс Г. и др. Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани //М.: ДМК Пресс, 2016. – 450 с.
8. Pichora-Fuller, M. Kathleen, and Kate Dupuis. Toronto Emotional Speech Set (TESS). Borealis, 2020. https://doi.org/10.5683/SP2/E8H2MF
9. Livingstone, Steven R., and Frank A. Russo. The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). Zenodo, 2018. https://doi.org/10.5281/zenodo.1188975
10. Luna-Jiménez C. Multimodal emotion recognition on RAVDESS dataset using transfer learning / C. Luna-Jiménez, Griol, Z. Callejas, R. Kleinlein, J. M. Montero, F. Fernández-Martínez // Sensors. – 2021. – Vol. 22. – Pp. 1–29.
Рецензия
Для цитирования:
Краснопрошин Д.B., Вашкевич М.И. Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения. Системный анализ и прикладная информатика. 2025;(1):38-43. https://doi.org/10.21122/2309-4923-2025-1-38-43
For citation:
Krasnoproshin D.V., Vashkevich M.I. Transfer learning based feature selection for feedforward neural network for speech emotion classifier. «System analysis and applied information science». 2025;(1):38-43. https://doi.org/10.21122/2309-4923-2025-1-38-43