Preview

Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения

https://doi.org/10.21122/2309-4923-2025-1-38-43

Аннотация

В работе исследуется задача распознавания эмоций в речи с помощью метода проектирования и отбора речевых признаков. В качестве исходных аудио признаков использовались мел-частотные кепстральные коэффициенты. В работе предлагается подход, в основе которого лежит идея переноса обучения, заключается в использовании метода пошагового исключения признаков при помощи статистических моделей – классификаторов. Отобранное подмножество признаков затем используется для обучения полносвязных нейронных сетей прямого распространения. Такой подход позволяет значительно уменьшить размер исходного признакового пространства и одновременно повысить качество предсказаний моделей. В качестве наборов данных для постановки экспериментов были использованы TESS и RAVDESS. Метрикой оценки качества классификаторов послужила невзвешенная средняя полнота (unweighted average recall UAR). Результаты экспериментов являются многообещающими (UAR для TESS = 82 %, UAR для RAVDESS = 53 %), тем самым демонстрируя перспективность предложенного подхода к задаче классификации эмоций по речи.

Об авторах

Д. B. Краснопрошин
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Краснопрошин Д.В., аспирант каф. электронных вычислительных средств

г. Минск



М. И. Вашкевич
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич М.И., д-р техн. наук, проф. каф. электронных вычислительных средств

г. Минск



Список литературы

1. Issa D. Speech emotion recognition with deep convolutional neural networks / D. Issa, M. Demirci, A. Yazici // Biomedical Signal Processing and Control. – 2020. – Vol. 59. – Pp. 1-11.

2. Baruah M., Banerjee B. Speech emotion recognition via generation using an attention-based variational recurrent neural network // Proceedings of the INTERSPEECH. – 2022. – Pp. 4710-4714.

3. Краснопрошин Д.В., Вашкевич М.И. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков // Доклады БГУИР. – 2024. – Т. 22. – № 3. – С. 93-100.

4. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А.А. Слинкина. М.: ДМК Пресс, 2015. 400 с.

5. Tsanas A. et al. Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease // IEEE transactions on biomedical engineering. – 2012. – Т. 59. – № 5. – P. 1264-1271.

6. Huang S. H. Supervised feature selection: A tutorial //Artif. Intell. Res. – 2015. – Т. 4. – № 2. – С. 22-37.

7. Джеймс Г. и др. Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани //М.: ДМК Пресс, 2016. – 450 с.

8. Pichora-Fuller, M. Kathleen, and Kate Dupuis. Toronto Emotional Speech Set (TESS). Borealis, 2020. https://doi.org/10.5683/SP2/E8H2MF

9. Livingstone, Steven R., and Frank A. Russo. The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). Zenodo, 2018. https://doi.org/10.5281/zenodo.1188975

10. Luna-Jiménez C. Multimodal emotion recognition on RAVDESS dataset using transfer learning / C. Luna-Jiménez, Griol, Z. Callejas, R. Kleinlein, J. M. Montero, F. Fernández-Martínez // Sensors. – 2021. – Vol. 22. – Pp. 1–29.


Рецензия

Для цитирования:


Краснопрошин Д.B., Вашкевич М.И. Отбор признаков на основе техники переноса обучения для классификации эмоций в речи с помощью полносвязной нейронной сети прямого распространения. Системный анализ и прикладная информатика. 2025;(1):38-43. https://doi.org/10.21122/2309-4923-2025-1-38-43

For citation:


Krasnoproshin D.V., Vashkevich M.I. Transfer learning based feature selection for feedforward neural network for speech emotion classifier. «System analysis and applied information science». 2025;(1):38-43. https://doi.org/10.21122/2309-4923-2025-1-38-43

Просмотров: 90


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2309-4923 (Print)
ISSN 2414-0481 (Online)