Математики из Армении создали сервис, который убирает посторонние звуки во время звонков. С помощью нейросетей Krisp определяет раздражающие шумы (вроде плача ребенка или шуршания бумаги) и в реальном времени вырезает их из аудиопотока.
Krisp — продукт американской компании с армянскими корнями 2Hz, которую в 2017 году основали два друга: Давит Багдасарян и Артавазд Минасян, пишет vc.ru.
Пользователь может выбрать, какие шумы блокировать: входящие или исходящие. Первый способ подходит для ситуаций, когда собеседник (или собеседники) находится на оживленной улице. Второй — когда пользователь хочет скрыть свое окружение. Например, если звонок застал его в кофейне по пути на работу.
Приложение способно различать и подавлять такие звуки, как шум улицы, кафе или аэропорта, детский плач, шуршание бумаги, стук клавиш и многие другие.
Шумоподавление сервиса работает благодаря технологии машинного обучения. Команда проекта собрала два датасета: в первом было несколько десятков тысяч аудиозаписей с различными звуками-шумами (например, автомобильной сигнализации). Во втором — примеры чистой речи, записанной в студии.
Затем разработчики стали генерировать сэмплы — накладывать шумы на чистую речь и создавать множество вариантов комбинаций с разными звуками и уровнями громкости. Например: тихая речь с громким звуком пожарной сирены, громкая речь с громким звуком пожарной сирены, громкая речь с тихим звуком пожарной сирены, тихая речь с тихим звуком пожарной сирены и так далее.
Далее они создали нейросеть и использовали получившиеся сэмплы для ее обучения. Если грубо: давали образец речи с шумами, образец чистой речи без шумов и предлагали убрать лишнее.
И повторяли процедуру множество раз, пока нейросеть не научилась эффективно распознавать и убирать шумы.
Давит Багдасарян родился и вырос в Армении, а также получил степень магистра в области компьютерных наук в Ереванском государственном университете. Со студенческих лет он работал в местных аутсорс-компаниях, которые создавали ИТ-продукты для зарубежных клиентов — в том числе из США. В 2008 году руководство предложило Багдасаряну переехать в США и возглавить департамент информационной безопасности.
В 2016 году устроился в компанию Twilio, которая разрабатывает API для корпоративных коммуникаций. Из-за разницы во времени ему приходилось коммуницировать с командой по вечерам, и он не знал, где его застанет очередной звонок: в гостях с шумными детьми, в кафе или где-то еще. «И я подумал, что было бы круто иметь под рукой сервис, который скрывал бы окружение, чтобы другие участники беседы не могли понять, где ты находишься», — вспоминает Багдасарян. В конце 2016 года Багдасарян рассказал об этой идее своему приятелю, доктору математических наук Артавазду Минасяну. К тому времени у него уже было несколько компаний в ИТ-сфере. Кроме того, он как раз искал интересные проекты в сфере машинного обучения.
Минасян начал изучать, как можно реализовать идею, и привлек знакомого математика Степана Саргсяна (сейчас он главный научный сотрудник 2Hz). Осенью 2017 года Багдасарян окончательно решил уволиться из Twilio и переехать всей семьёй в Армению. Через несколько недель после возвращения они вместе с Минасяном открыли 2Hz
http://www.panarmenian.net