Как технология с нейронными сетями помогает налаживать отношения людям, которые потеряли голос

Чытай па маiх вуснах

Шкадаваць людзей, з якімі здарылася непрыемнасць, можа кожны. А вось прымяніць свае веды і час, каб дапамагчы ім на практыцы, здольныя не ўсе. 22-гадовыя выпускнікі Акадэміі кіравання пры Прэзідэнце Паліна Сідарук і Дзмітрый Клімянкоў, якія скончылі навучанне на кафедры «Кіраванне інфармацыйнымі рэсурсамі» ды знайшлі добрую працу ў IT-кампаніях, якраз з тых, хто дзейнічае не на словах. «Заўсёды хацеў зрабіць нешта такое, што прынясе карысць грамадству», — кажа Дзіма і паказвае свой бот, які ў нейкім сэнсе верне голас тым, хто страціў яго з-за цяжкай хваробы. Як гэта працуе?



Ларынгіт, рак гартані, шчытападобнай залозы і некаторыя іншыя захворванні часам прыводзяць да таго, што чалавек можа страціць голас. Пісаць ад рукі на паперы, друкаваць на камп’ютары — так, гэта памочнікі ў падобнай сітуацыі. Але няўжо няма іншых варыянтаў, больш зручных, каб сказаць важнае? Каханне двух маладых людзей, іх дапытлівасць прывялі да магчымага рашэння.

— Мы скончылі акадэмію мінулым летам, цяпер працуем у IT. Я ў адной кампаніі ў аддзеле маркетынгу і падтрымкі, а Дзіма — у іншай і займаецца нейроннымі сеткамі і машынным навучаннем, — першай слова бярэ Паліна. — Мы 4 гады вучыліся разам. Ён быў старастам маёй групы, але сустракацца мы пачалі толькі мінулай зімой, пасля таго як схадзілі на спектакль пра... адносіны паміж мужчынам і жанчынай. Зразумелі, што ў нас агульныя інтарэсы, і неяк усё закруцілася. У тым ліку з нашым праектам для тых, хто страціў голас.

— Я пастаянна знаёмлюся з  матэрыяламі пра тое, што ў свеце на тэхналагічным піку, якія ёсць інавацыі. Неяк наткнуўся на артыкул пра Speech recognition — распазнаванне гаворкі, — Дзіма ўспамінае, адкуль з’явілася ідэя для бота. — Тэхналогіі, якія распазнаюць тое, што мы гаворым, ёсць, але яны недасканалыя. Вялізныя карпарацыі кшталту Google вырашаюць праблемы ў гэтай галіне, але не заўсёды ўсё лёгка распазнаецца: акцэнты, спецыфіка гаворкі, шум вакол і таму падобнае перашкаджаюць гэтаму. Я падумаў: а чаму б не навучыць нейронную сетку проста распазнаваць па вуснах тое, што кажа чалавек, і перакладаць гэта ў тэкст? Раптам гэта дапаможа глуханямым, якія не гавораць, але выкарыстоўваюць артыкуляцыю?

Са сваёй ідэяй пара пайшла на конкурс сацыяльных стартапаў. Там яны атрымалі экспертную ацэнку: на жаль, для тых, хто не чуе, такі бот на дадзены момант не падыдзе. Прычын некалькі: у кожнага з іх розная артыкуляцыя. Хтосьці проста адкрывае рот, хтосьці нешта кажа, некаторыя не прымяняюць артыкуляцыю наогул. Занадта шмат падводных камянёў, таму зараз Паліна і Дзіма засяроджаны на тых людзях, у якіх ёсць афанія — часовая або пастаянная страта голасу пры захаванні магчымасці гаварыць шэптам.

— Дапусцім, чалавеку пасля аперацыі на гартані патрэбен аднаўленчы перыяд, у яго нейкі час няма магчымасці размаўляць. Ці нават на кароткі тэрмін чалавек падчас ангіны страціў голас. У тым і іншым выпадку можна скарыстацца нашым ботам у аптэцы або краме, — Дзіма дастае смартфон і паказвае, як гэта працуе ў месенджары Telegram па адрасе @ lip_reading_bot. Там з’яўляецца невялікая інструкцыя па карыстанні: уключыце камеру, «пакажыце» вуснамі слова — прамоўце без гуку, і бот перавядзе адразу ж гэта ў тэкст.



Пакуль тэхналогія распазнавання валодае невялікай колькасцю слоў — доўгіх і кароткіх. Яе каманда павялічыць. Працуюць над гэтым практычна кожны дзень — такую мэту сабе паставілі. Да таго ж пакуль гэта словы англійскія (нейронная сетка навучаецца па адкрытых крыніцах — відэа з YouTube). Гэта выглядае так: відэа, на якім чалавек артыкулюе — варушыць вуснамі, распазнаецца спецыяльным сэрвісам і перадаецца як даныя для нейроннай сеткі. Да таго ж сам тэкст, што кажа чалавек, і атрымліваецца пара — артыкуляцыя і сама гаворка. Хлопцы адсочваюць, ці адпавядае тэкст гаворкі і артыкуляцыя таго, што будзе загружана ў нейронную сетку.

— Сама сетка — гэта мадэль з вялікай матэматычнай формулай. Праз яе мы праганяем велізарную колькасць даных — сетка навучаецца, разумее розныя варыянты вымаўлення слова. Адпаведна чым больш варыянтаў яна «прагледзіць», тым лягчэй ёй будзе ў будучыні распазнаваць, якое менавіта слова сказалі, — Паліна тлумачыць прынцып. — Мы навучаем сетку не ўсім словам, а ўстанаўліваем мэтавыя арыенціры. Плануем, што пакуль усё звязана будзе з прэпаратамі, медыцынскімі ключавымі словамі, напрыклад,  галаўны боль, рукі, ногі і іншае.

У хуткім часе пачнецца навучанне і рускім словам. Але важней за ўсё для пары не словы, а цэлыя сказы. Задачка цяжкая, але выканальная.

— Я адказваю за праграмаванне ў нашай камандзе і шукаю распрацоўшчыкаў для дапамогі. Зараз нам дапамагае студэнт БДУ, час ад часу падключаюцца іншыя юнакі — гэта натхняе. Мы таксама зараз кансультуемся з неўролагамі і шукаем іншых спецыялістаў з медыцыны, якія маглі б палепшыць наш бот. Чакаем тых, хто неабыякавы да праблемы, — кажа Дзіма. Паліна яго дапаўняе:

— Таксама мы плануем падключыць пацыентаў, для якіх і ствараецца бот. Важна даведацца, што ім зручна, як лепш нам рашыць задачу.

Нядаўна каманда Visper (так бот завецца) прадставіла сваю ідэю на хакатоне рэспубліканскага конкурсу сацыяльных праектаў Social Weekend. Іх ідэя спадабалася аднаму з мецэнатаў, і вынаходнікам уручылі 2000 беларускіх рублёў. Іх яны патрацяць на тэхніку для распрацоўкі.


Полная перепечатка текста и фотографий запрещена. Частичное цитирование разрешено при наличии гиперссылки.
Заметили ошибку? Пожалуйста, выделите её и нажмите Ctrl+Enter