Նիւթ

Վերնագիր: Building a Speaker Diarization System: Lessons from VoxSRC 2023

Ստեղծողը:

Karamyan, D. ; Kirakosyan, G.

Տեսակ:

Հոդված

Ամսագրի կամ հրապարակման վերնագիր:

Математические вопросы кибернетики и вычислительной техники=Կիբեռնետիկայի և հաշվողական տեխնիկայի մաթեմատիկական հարցեր=Mathematical problems of computer science

Հրապարակման ամսաթիւ:

2023

Համար:

60

ISSN:

2579-2784 ; e-2538-2788

Լրացուցիչ տեղեկութիւն:

Քարամյան Դավիթ Ս., Կիրակոսյան Գրիգոր Ա., Карамян Давид С., Киракосян Григор А.

Այլ վերնագիր:

Խոսնակների դիարիզացիայի համակարգի կառուցում. դասեր VoxSRC-ից ; Построение системы диаризации дикторов: опыт из VoxSRC 2023

Համատեղ հեղինակները:

Russian-Armenian University ; Krisp.ai, Yerevan ; Institute of Mathematics of NAS RA

Ծածկոյթ:

52–62

Ամփոփում:

Speaker diarization is the process of partitioning an audio recording into segments corresponding to individual speakers. In this paper, we present a robust speaker diarization system and describe its architecture. We focus on discussing the key components necessary for building a strong diarization system, such as voice activity detection (VAD), speaker embedding, and clustering. Our system emerged as the winner in the Voxceleb Speaker Recognition Challenge (VoxSRC) 2023, a widely recognized competition for evaluating speaker diarization systems.
Диаризация дикторов - это процесс разделения аудиозаписи на сегменты, которые соответствуют отдельным дикторам. В этой статье представлена надежная система диаризации говорящих и описана архитектура данной системы. Cосредоточено внимание на обсуждении ключевых компонентов, таких как обнаружение речевой активности экстрактор речевых характеристик и кластеризация, которые необходимы для создания надежной системы диаризации. Данная система стала победителем конкурса Voxceleb Speaker Recognition Challenge (VoxSRC) 2023, широко признанного конкурса по оценке систем диаризации дикторов.
Խոսնակների դիարիզացիայի նպատակը աուդիո ձայնագրության մեջ տարբեր խոսնակների հայտնաբերելն ու առանձնացնելն է: Այս հոդվածում ներկայացված է դիարիզացման հուսալի համակարգ, ինչպես նաև նկարագրված են այդ համակարգի կառուցվածքն ու հիմնական բաղադրիչները, ինչպիսիք են ձայնի հայտնաբերումը, խոսնակների ձայնային հատկանիշներ դուրս բերող մոդելը և կլաստերացումը, որոնք անհրաժեշտ են դիարիզացման հուսալի համակարգ ստեղծելու համար: Այս համակարգը հաղթող է ճանաչվել Voxceleb Speaker Recognition Challenge (VoxSRC) 2023 մրցույթում, որը լայնորեն ճանաչված է խոսնակների դիարիզացման համակարգերի գնահատման մրցույթում:


Հրատարակիչ:

Изд-во НАН РА

Ձեւաչափ:

pdf

Նոյնացուցիչ:

oai:arar.sci.am:367000

Գլխաւոր նշումը:

Պարբերականի սույն պրակը նվիրվում է տեխնիկական գիտությունների թեկնածու Սուրեն Բախշիի Ալավերդյանի հիշատակին

Բնօրինակին գտնուելու վայրը:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան

Նիւթին հաւաքածոները:

Վերջին անգամ ձեւափոխուած է:

Sep 19, 2024

Մեր գրադարանին մէջ է սկսեալ:

Dec 8, 2023

Նիւթին բովանդակութեան հարուածներուն քանակը:

17

Նիւթին բոլոր հասանելի տարբերակները:

https://arar.sci.am/publication/396614

Ցոյց տուր նկարագրութիւնը RDF ձեւաչափով:

RDF

Ցոյց տուր նկարագրութիւնը OAI-PMH ձեւաչափով։

OAI-PMH

Հրատարակութեան անունը Թուական
Karamyan, D., Building a Speaker Diarization System: Lessons from VoxSRC 2023 Sep 19, 2024

Օբյեկտի տեսակ՝

Նման

Այս էջը կ'օգտագործէ 'cookie-ներ'։ Յաւելեալ տեղեկատուութիւն