Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

12:46, 13 января 2022г, Наука 860


За три года IT-компания из Барнаула Estesis научила искусственный интеллект (ИИ) распознавать предметы и определять личность человека по голосу. Сегодня к разработчикам обращаются клиенты из Европы, Америки и Азии, а продукция компании отмечалась на краевом, федеральном и даже мировом уровне.

Неклассическое программирование

Компания Estesis создавалась еще в 2019 году. Первым делом для качественного машинного обучения предприятию потребовались большие вычислительные мощности. С этим помогла крупная технологическая фирма из США Nvidia. Почти сразу после открытия IT-предприятия разработчики из Барнаула попали в международную программу поддержки инновационных стартапов и получили порядка 25 тысяч долларов для аренды серверов, на которых начали развивать нейронные сети. Сегодня программы барнаульских разработчиков умеют не только следовать простым алгоритмам, но и видеть, слышать, а также обучаться, а средства на необходимые компьютерные мощности уже закладываются в стоимость проекта.

Генеральный директор компании Яков Филин признается, что пока личные разработки приносят не так много денег, потому что в прорывные инновации сначала нужно влить немало средств, только после этого они выстреливают. Но уже пройдена стадия, когда предприятие жило почти без прибыли и развивалось за свой счет.

– Мы работаем в области искусственного интеллекта. Это неклассический вид программирования. Благодаря нашей системе платформа может распознавать человека по голосу, способна перевести речь в текст или определить, что изображено на фотографии, – объясняет Филин. – Может показаться, что это что-то сложное, но для нас это простая математика и анализ данных.

Достаточно одного взгляда

Главная цель работы IT-фирмы – автоматизировать привычные процессы, тем самым упростить не только быт, но и работу. Например, один из недавних проектов был связан с автоматической генераций субтитров к песням. База аудиозаписей состояла из 2,5 миллионов треков и расшифровок к ним. Искусственный интеллект при помощи распознавания голоса сопоставлял данные и добавлял текст к композиции. Обрабатывать настолько огромный объем данных вручную слишком трудоемко, а правильно запрограммированный ИИ без труда справляется с такой задачей.

Одно из основных направлений разработок – компьютерное зрение. Созданный компанией терминал позволяет без участия кассира определять блюдо на подносе, рассчитать их стоимость и принять оплату за обед. Пока это пилотный проект, машина все еще обучается, но несколько таких аппаратов в прошлом году уже были установлены в столовых на барнаульских предприятиях.

– Наши бизнес-партнеры производят терминалы, а мы встраиваем туда софт. Представляем не просто сканер еды, а целое цифровое решение, – подчеркивает гендиректор компании. – Например, кассирам в некоторых супермаркетах наш «глаз» помогает: моментально распознает весовой продукт. Достаточно просто поднести товар к «считывателю» – и программа сразу поймет, что перед ней находятся именно яблоки и именно марки «Голден».

Филин добавил, что компьютерное зрение – перспективное направление работы и сканеры уже неплохо себя зарекомендовали. После тестирования инновационная разработка будет появляться и в других заведениях, а их производством будет заниматься отдельная бизнес-единица.

Тонкий слух

Программисты учат нейросеть не только видеть, но и слышать. Голосовые технологии уже давно используются в кол-центрах, при наборе текста и даже для разблокировки смартфона. Главное в этом направлении – безопасность, потому как сложнее всего определить, что в банк позвонил именно клиент, а не злоумышленник.

– Человек может находиться в разных акустических окружениях, например, ехать в машине, говорить с разной интонацией, на разных языках. Наша задача – нивелировать эту особенность и не дать нейросети запутаться, – объясняет предприниматель.

Для безопасности пользователей в каждой сфере порог вхождения настраивается индивидуально. В финансовых компаниях важнее всего не пустить в систему мошенника. В этом случае совпадение голоса должно быть максимальным. «Лучше немного «покошмарить» клиента, заставляя его по нескольку раз повторять определенную фразу, чем дать злоумышленнику доступ к его счету», – констатирует Филин.

Такая же программа используется при подсчете эфирного времени на телевидении, по голосу определяя, сколько времени в кадре провел тот или иной человек. Но для таких функций устанавливается больший порог принятий, потому что это не такая опасная сфера. И если нейросеть спутает чьи-то тембры, ничего страшного не произойдет.

– Мы представляли программу на международных конкурсах. По итогам вошли в десятку лучших мировых команд по точности распознавания. Вероятность ошибки составляет менее двух процентов, но эту погрешность можно устранить, правильно настроив порядок доступа. Технология уже внедрена в один из крупных российских банков, но, согласно договору, мы еще не можем называть его.

Фото автора

Фоторепортаж
Блоги