Автоматизація суб’єктивного оцінювання розбірливості мовлення на тлі шумової та ревербераційної завад

Розбірливість мовлення

Куратори проекту:

проф. А.Продеус, PhD Д.Паренюк

Активні учасники проекту: магістри 1-го та 2-го років навчання

Актуальність та мета проекту. На жаль, на сьогодні Україна не має власного держаного стандарту із суб’єктивного оцінювання розбірливості мовлення [1]. Замість такого наші інженери вимушені користуватися стандартами СРСР ГОСТ 16600-72 та ГОСТ 7153-85 [2], хоча в Росії замість застарілого ГОСТ 16600-72 вже давно використовують осучаснені стандарти 50840-95 та 51061-97, де передбачено можливість автоматизації суб’єктивної акустичної експертизи шляхом використання ПК та спеціального програмного забезпечення.

Тому головна мета даного проекту полягає в створенні та випробуванні пакету комп’ютерних програм, призначених для автоматизації суб’єктивного оцінювання розбірливості мови, спотвореної шумом та реверберацією. Рішення цього завдання є першим важливим  кроком на шляху до створення вітчизняних стандартів в галузі акустичної експертизи каналів мовної комунікації.

Для якісного розв’язання поставлених завдань важливо забезпечити достовірність результатів оцінювання – а це можливо лише за умови участі в проекті досить великої кількості слухачів тестових сигналів. Тому до участі в проекті запрошуються всі студенти-магістри першого та другого років навчання.

Перспективи проекту:

Даний проект дає змогу студентам краще засвоїти засади класичних та сучасних методів оцінювання розбірливості мовлення, спотвореного шумом та реверберацією. При виконанні даного проекту студенти не тільки навчаться теорії та практиці оцінювання розбірливості мовлення, але й мають змогу одержати важливі нові наукові результати, експериментально перевіривши прогнозні оцінки маскувальної здатності синтетичних забарвлених шумів, а також дослідивши вплив ревербераційної завади на розбірливість мовлення.

Більш того, даний проект дозволяє зробити певний реальний внесок у розвиток системи вітчизняних державних стандартів, розробивши прототип нового Державного стандарту України, котрий був би не тільки аналогом стандартів 50840-95 та 51061-97, але й в чомусь перевершував їх. Такий стандарт потрібен фахівцям-зв’язківцям, архітекторам, будівельникам, спеціалістам із захисту інформації від витоку, оскільки дозволяє автоматизувати акустичну експертизу каналів передачи мовної інформації.

Технічне завдання:

1. Постановка завдання. Оцінювання розбірливості мовлення виконується студентами шляхом прослуховування на навушники (!) трьох таблиць звукосполучень. Кожна таблиця містить 50 таких звукосполучень. Після запуску спеціальної комп’ютерної програми студенту пропонується прослухати кожне звукосполучення та ввести в комп’ютер за допомогою клавіатури почуте звукосполучення. Після прослуховування кожної таблиці автоматично підраховується процент правильно почутих звукосполучень.

Слід враховувати, що загальний час прослуховувань є досить великим й сягає приблизно 6-7 годин, оскільки прослуховування проводяться для різних умов спотворення мовних сигналів шумом та реверберацією. Проте лякатися не слід – дійсно, якщо в день витрачати на виконання проекту 30 хвилин, роботу можна закінчити протягом 2-х тижнів.

2. Комп’ютерні програми для Matlab.

Головних програм всього дві:

1) table_reading_assist.m – дана програма дозволяє автоматизувати оцінювання розбірливості мови за результатами прослуховування 3-х наборів (таблиць) звукосполучень в різноманітних шумових та ревербераційних умовах;

2) rzlts_processing.m – програма призначена для обробки результатів досліджень, що мають вигляд множини файлів, розміщених у спеціальних папках.

Допоміжні програми:

1) assistant.m – програма-функція, призначена для контролю за повнотою виконання поставленного завдання;

2) distorSystem.m – програма-функція, призначена для контрольованого спотворення мовних сигналів шумом та реверберацією.

Магістри 2-го курсу навчання додатково використовують спеціальні програми для підготовки еталонних таблиць звукосполучень та допомоги в обробці сигналів:

1) make_wav_table.m – для побудови звукових таблиць звукосполучень;

2) make_rfr_table.m – для побудови текстових таблиць звукосполучень;

3) redact_table.m – для редагування текстових таблиць звукосполучень;

4) noise_generation.m – для генерування забарвлених шумів;

5) vad_LP.m – детектор голосової активності;

6) filter_band_7_func.m – гребінка із 7 смугових октавних фільтрів для створення забарвлених шумів.

3. Вхідні та вихідні дані до комп’ютерних програм

Вхідні дані:

1) номери 3-х таблиць для прослуховування (одержуються від викладача);

2) шість еталонних таблиць із текстовими даними та 3 таблиці із звуковими даними (таблиці із текстовими даними іменуються як rfr_table_N_1.matrfr_table_N_2.mat, де N – номер таблиці, а таблиці із звуковими даними іменуються як wav_table_N.mat);

3) noises_table.mat – файл-набір із 5-секундними відрізками білого, рожевого та коричневого шумів;

4) rirs_table.mat – файл-набір із 7 зразками імпульсних характеристик приміщень із часом реверберації від 0.3 с до 2,7 с.

Примітка: комп’ютерні програми та вхідні дані до них за пп.2-4 містяться в архівному файлі (одержується в кураторів проекту):

Project_2017.zip

Вихідні дані:

Одержані результати обчислень (вихідні дані) містяться у спеціальній автоматично створеній папці Results_Lastname (Lastname – прізвище студента), де містяться чотири папки з іменами Group1 (містить 3 файли результатів), Group2 (27 файлів), Group3 (21 файл), Group24 (27 файлів) та один файл mean_rezults.mat із усередненими даними.

4. Одержання та обробка вихідних даних

Після закінчення прослуховування таблиць, одержані результати треба обробити програмою rzlts_processing.m– в результаті кожен студент одержить набір графіків.

Ці графіки треба вставити у звіт, котрий треба роздрукувати та здати викладачу на перевірку для оцінювання роботи.

Разом із звітом викладачу та іншим кураторам проекту потрібно передати архівний файл із результатами дослідів (флешка або електронна пошта).

5. Захист роботи

Проект має буде захищено кожним студентом.

Оцінки за звіт та за захист звіту є важливим внеском в результати семестрової атестації стентів.

УВАГА!

Для одержання якісних результатів прослуховування сигналів слід виконувати тільки за допомогою навушників – це гарантує достовірність одержаних результатів.

Не бійтеся перериватися, якщо зморилися – програма assistent.m автоматично прослідкує, щоб всі досліди були виконані в повному обсязі!

6. Запитання та відповіді

Найчастішими запитаннями від виконавців проекту є наступні:

Запитання 1Мені не вдалося обробити результати та одержати графіки за допомогою програмиrzlts_processing.m в зв’язку із помилкою в роботі програми

Відповідь:

Таке буває, коли в процесі прослуховування таблиць звукосполучень трапилася аварійна ситуація та програма table_reading_assist.m раптово перервала свою роботу (вимкнувся електрострум, ви натиснули на клавіатурі щось не те і т.п.). В цьому випадку відповідний файл результатів хоча і запишеться на диск, але виявиться неповним, а тому й непридатним для подальшої обробки.

Щоб вийти із цього положення та одержати вірний файл результатів, прийдеться заново прослухати відповідну таблицю звукосполучень. Зробити це можна за допомогою спецально розробленої для цього випадку програми

table_reading_correction.m

Але перш ніж запускати цю програму, зробіть наступне:

1) запустіть програму rzlts_processing.m та після того, як ця програма зупиниться та видасть повідомлення про неможливість нормального завершення обчислень, подивіться в полі Workspace на значення змінної rzltname – там вказано шлях та ім’я файлу, який є неповним;

2) аналізуючи шлях та ім’я цього файлу, випишіть собі на папері:

– номер групи дослідів;
– номер таблиці;
– число після символу “t” (якщо цей символ є в назві файлу);
– число після символу “c” (якщо цей символ є в назві файлу);
– число після символу “s” (якщо цей символ є в назві файлу).

Тепер ви можете запустити програму table_reading_correction.m, яка спочатку запропонує вам ввести потрібні дані, а потім дасть змогу заново прослухати потрібну таблицю звукосполучень.

Закінчивши прослуховування, знову запустіть програму rzlts_processing.m – якщо вона відпрацює до кінця та видасть вам всі 3 графіки, вважайте, що всі ваші результати є вірними та готовими для архівування та передачі викладачу або кураторам проекту.

Якщо програма rzlts_processing.m відпрацьює не повністю й знову видасть повідомлення про неможливість нормального завершення обчислень – повторіть дії за пп.1) й 2), та знову скорегуйте свої результати за допомогою програми table_reading_correction.m – й так дійте доти, доки не одержите нормальні результати (всі 3 графіки).

Запитання 2Що має бути в звіті, окрім отриманих графіків?

Відповідь:

1. Актуальність завдання, що розв’язується (кому і навіщо це потрібно?)

2. Опис організації досліджень. Для магістрів 1-го року – структурна схема обробки даних в кожному досліді (за аналізом програм table_reading_assist.m та assistant.m), а також структурні схеми алгоритмів програм distorSystem.m та vad_LP.m

Для магістрів 2-го року – завдання за п.2 та додатково до нього: аналіз програм підготовки даних: make_wav_table.mmake_rfr_table.mredact_table.mnoise_generation.m

3. Результати обробки (графіки) та їх коментарі, де треба вказати, чи узгоджуються одержані результати із тими, що наведені в літературі, а також спроба пояснити узгодження (або відсутність такого).

4. Висновки за результатами роботи: 1) що зроблено в роботі; 2) які неочікувані або очікувані результати одержано; 3) де і для чого можна застосувати результати проведеної роботи; 4) що надалі треба ще додатково зробити або покращити?

5. Якщо пропонуєте конкретні покращення (організація досліджень, комп’ютерні програми) – додайте їх із своїми коментарями.

Етапи виконання проекту:

Старт проекту (видача Технічного завдання)
Передача результатів кураторам проекту
Кінець проекту (оформлення звіту про одержані результати)

Результати проекту:

За результатами обробки одержаних даних побудовано графіки залежності усереднених оцінок розбірливості мови, спотвореної шумом та реверберацією. Кілька таких графіків наводимо нижче:

Залежність розбірливості від відношення сигнал-шум   Залежність розбірливості від часу реверберації

Результати досліджень оформлено у вигляді статті, яка пройшла сліпе рецензування та надрукована:

А. Продеус, А. Вітик, О. Дворник, І. Котвицький, О. Чайка, М. Ярошенко, Суб’єктивне оцінювання розбірливості мови на тлі шуму та реверберації. – “Мікросистеми, електроніка та акустика”, т. 23, № 2, 2018, с. 66-73, ISSN 2523-4447, DOI: 10.20535/2523-4455.2018.23.2.128820.

Крім того, магістрами 2-го року навчання, які взяли активну участь в організації експериментальних досліджень, зроблено доповідь на міжнародній конференції ELNANO-2018. Цю доповідь опубліковано в збірці праць конференції:

A. Prodeus, K. Bukhta, P. Morozko, O. Serhiienko, I. Kotvytskyi, I. Shherbenko “Automated System for Subjective Evaluation of the Ukrainian Speech Intelligibility,” Proceedings of IEEE 38th International Conference on Electronics and Nanotechnology (ELNANO), April 24-26, 2018 Kyiv, Ukraine, pp. 533-538. ISBN: 978-1-5386-6382-0

Група із п’яти найбільш активних студентів на чолі із професором кафедри А.М. Продеусом, що виконали проект “Автоматизація суб’єктивного оцінювання розбірливості мовлення”, отримали Свідоцтво про реєстрацію авторського права на твір – комп’ютерну програму “Автоматизована система суб’єктивного оцінювання розбірливості мовлення”