Сбер
представил нейросетевые модели,
позволяющие распознавать русский
жестовый язык. Об этом на конференции
AI
Journey
сообщил старший вице-президент, СTO,
руководитель блока «Технологи» Сбербанка
Андрей Белевцев.
Команда
Vision RnD (из Управления экспериментальных
систем машинного обучения) в SberDevices,
разрабатывающая одно из таких решений,
первой в мире представила прототип
общения с генеративной языковой моделью
при помощи жестового языка в открытом
доступе. Это стало возможно благодаря
использованию GigaChat API, программного
интерфейса доступа к сервису GigaChat.
Генеративная модель GigaChat сама, без
дополнительных преобразований, понимает
контекст распознанных жестов. Например,
распознанные отдельные слова: «Я Идти
Улица Гулять» сервис сам преобразовывает
в корректную фразу: «Я пошел гулять на
улицу», сохраняя контекст передачи
информации.
Текущая
версия модели позволяет распознавать
более 2500 жестов, включая понимание
дактиля (произношение слов по буквам)
и возможность распознавать составные
жесты. Кроме того, модель понимает
терминологию по темам банковской сферы,
транспорта, животных, и даже несколько
слов из сферы медицины и образования.
Этот объем покрывает существенную часть
словаря русского жестового языка,
позволяя создавать сервисы с нужным
прикладным применением.
На
базе этой модели были обучены нейросети
для распознавания американского
жестового языка, которые заняли первую
строчку в публичном рейтинге WLASL-2000.
Достичь такого результата позволило
использование самого разнообразного
и большого в мире датасета для распознавания
русского жестового языка —
Slovo.
Датасет
и обученная на нем модель выложены в
открытый
доступ.
Другая
команда исследователей, из подразделения
Sber AI во благо общества, разработала и
опубликовала
в открытом доступе
легкую модель распознавания жестового
языка, не требовательную к вычислительным
ресурсам. Модель работает на CPU, что
снижает себестоимость решений, создаваемых
на ее основе. Это дает возможность
широкому кругу разработчиков проектировать
инклюзивное программное обеспечение,
например, продукты и сервисы для
коммуникации или инструменты для
изучения жестового языка. На сегодняшний
день алгоритм распознает 1600 жестов и
преобразовывает в слова до трёх жестов
в секунду на стандартных персональных
компьютерах. В 2024 году планируется
тестирование и внедрение модели
распознавания русского жестового языка
и решений на ее основе в ряде регионов
России.
«Сервисы для распознавания
русского жестового языка и созданная
Сбером система искусственного интеллекта
GigaChat позволят преодолеть коммуникационный
разрыв и сделают мир доступнее для людей
с нарушением слуха. Модели могут
использоваться в рамках исследований,
позволяющих развивать сервисы для
пользователей с инвалидностью. Например,
для создания доступной среды в
многофункциональных центрах (МФЦ), в
транспортной отрасли (аэропорты, вокзалы,
метро), в больницах для общения пациента
и врача, в банковских сервисах и адаптации
онлайн и оффлайн-образования», –
прокомментировал
Андрей Белевцев, старший вице-президент,
СTO, руководитель блока «Технологи»
Сбербанка.