Աղմկադիմացկունության ապահովումը խոսնակների դիարիզացիայի համակարգում ; Обеспечение шумоустойчивости системы диаризации дикторов
Russian-Armenian University, Yerevan ; Institute of Mathematics of NAS RA
The goal of speaker diarization is to identify and separate different speakers in a multi-speaker audio recording. However, noise in the recording can interfere with the accuracy of these systems. In this paper, we explore methods such as multi-condition training, consistency regularization, and teacher-student techniques to improve the resilience of speaker embedding extractors to noise. We test the effectiveness of these methods on speaker verification and speaker diarization tasks and demonstrate that they lead to improved performance in the presence of noise and reverberation. To test the speaker verification and diarization system under noisy and reverberant conditions, we created augmented versions of the VoxCeleb1 cleaned test and Voxconverse dev datasets by adding noise and echo with different SNR values. Our results show that, on average, we can achieve a 19.1% relative improvement in speaker recognition using the teacher-student method and a 17% relative improvement in speaker diarization using consistency regularization compared to a multi-condition trained baseline.
Խոսնակների դիարիզացիայի նպատակը աուդիո ձայնագրության մեջ տարμեր խոսնակների հայտնաμերումն ու առանձնացումն է: Այնուամենայնիվ, ֆոնային աղմուկը կարող է ազդել այս համակարգերի ճշգրտության վրա: Այս հոդվածում ուսումնասիրվել են այնպիսի մեթոդներ, ինչպիսիք են` տարբեր աուգմենտացիաներով ուսուցումը, կայունության կարգավորումը (consistency regularization) և ուսուցիչ-աշակերտ մեթոդը‘ խոսնակների ձայնային հատկանիշներ դուրս բերող մոդելի կայունությունը աղմուկի նկատմամբ բարձրացնելու համար: Նշված մեթոդների արդյունավետությունը ստուգվել է խոսնակների նույնականացման և դիարիզացիայի խնդիրներում և ցույց է տրվել, որ դրանք հանգեցնում են կայունության բարելավմանը` աղմուկի և արձագանքի առկայության դեպքում: Խոսնակների նույնականացման և դիարիզացիայի համակարգերը աղմուկի և արձագանքի պայմաններում փորձարկելու համար ստեղծվել են VoxCeleb1 և Voxconverse dev տվյալների հավաքածուների ընդլայնված տարբերակները‘ ավելացնելով տարբեր SNR արժեքներով ֆոնային աղմուկ և արձագանք: Ստացված արդյունքները ցույց են տալիս, որ միջին հաշվով կարելի է հասնել խոսնակների նույնականացման ճշգրտության հարաբերական բարելավմանը` 1 9 ; 1 % -ով‘ օգտագործելով ուսուցիչ-աշակերտ մեթոդը և խոսնակների դիարիզացիայի ճշգրտության հարաբերական բարելավմանը` 1 7 % - ով` օգտագործելով կայունության կարգավորման մեթոդը` համեմատած տարբեր աուգմենտացիաներով վարժեցված մոդելի հետ:
Целью системы диаризации дикторов является идентифицирование и разделениеразных дикторов в аудиозаписи. Однако шум в записи может повлиять на точность этих систем. В этой статье мы исследуем такие методы, как обучение с различными аугментациями, регуляризация согласованности (consistency regularization) и метод учитель-ученик, чтобы повысить устойчивость экстракторов речевых характеристик к шуму. Мы проверяем эффективность этих методов в задачах распознавания дикторов по голосу и диаризации дикторов и демонстрируем, что они приводят к улучшению устойчивости при наличии шума и реверберации. Чтобы проверить систему распознавания и диаризации дикторов в условиях шума и реверберации, мы создали расширенные версии VoxCeleb1 и наборов данных Voxconverse dev, добавив шум и эхо с разными значениями SNR. Наши результаты показывают, что в среднем мы можем добиться относительного улучшения распознавания дикторов на 1 9 ; 1 % с использованием метода учитель- ученик и относительного улучшения диаризации дикторов на 1 7 % с использованием метода регуляризации согласованности по сравнению с базовой моделью, обученной с помощью различных аугментаций.
oai:arar.sci.am:366987
ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան
Sep 19, 2024
Dec 8, 2023
11
https://arar.sci.am/publication/396602
Հրատարակութեան անունը | Թուական |
---|---|
Karamyan, Davit S., Making Speaker Diarization System Noise Tolerant | Sep 19, 2024 |
Sargsyan, Shushanik A. Edita G. Gzoyan