На
международной конференции по
искусственному интеллекту (ИИ) Artificial
Intelligence
Journey
Сбер
представил Kandinsky
2.0 – первую российскую мультиязычную
диффузионную модель для генерации
изображений по текстовому описанию с
2 млрд параметров.
Нейросеть
разработали и обучили исследователи
Sber
AI
при партнёрской поддержке ученых из
Института искусственного интеллекта
AIRI на объединённом датасете Sber
AI
и SberDevices
из 1 млрд пар «текст — изображение».
Увидеть, как она рисует, можно на сайте
FusionBrain,
а также при помощи команды «Запусти
художника» на умных устройствах Sber
и в мобильном приложении Салют.
FusionBrain.ai
– открытый портал для демонстрации
моделей, приближающих мир к созданию
сильного
искусственного интеллекта
от Института AIRI, который Сбер решил
поддержать, первым выложив свою модель
на ресурсе. В будущем на сайте FusionBrain.ai
будут доступны как генеративные, так и
передовые мультимодальные и мультизадачные
модели.
В
Kandinsky 2.0 разработчики использовали
диффузионный подход, поскольку модели
подобной архитектуры, в отличие от
трансформеров, дают хорошие результаты
почти во всех задачах генерации
мультимедийного контента по текстовому
описанию. Модель способна одинаково
быстро и качественно обрабатывать
запросы на 101 языке! Среди них как
распространённые русский и английский,
так и более редкие, например, монгольский.
Система поймёт задачу, даже если в одном
запросе будут слова на разных языках.
Kandinsky
2.0 отличается от предшественника более
сочной, глубокой и реалистичной картинкой
и расширенными возможностями. На сайте
FusionBrain
изображения можно генерировать в 20
различных стилях, среди которых ренессанс,
классицизм, мультипликация, Новый год
и даже хохлома. В модели также реализованы
функции inpainting (замена любой части
изображения и любого объекта на
изображении на сгенерированные
нейросетью) и outpainting
(возможность дорисовывать готовое
изображение и фон вокруг картинки).
Кроме
того, в Kandinsky 2.0 пользователи могут
оценить, как одинаковые с точки зрения
смысла лингвистические конструкции и
понятия отличаются в зависимости от
языка и культурной окраски. Например,
если сформулировать запрос «национальное
блюдо» на русском языке, нейросеть чаще
всего рисует щи, а на японском это будет
мисо-суп и суши.
«Мы
продолжаем развивать решения для
автоматической генерации изображений
по описанию на естественном языке –
так называемый креативный ИИ. Kandinsky
2.0, который пришёл на смену первой версии
модели,
–
прорыв в этой сфере. Наша модель позволяет
за несколько секунд получить уникальную
картинку под конкретную задачу и свободно
распространять её без лицензии, что
очень актуально для бизнеса. Генеративные
модели развиваются очень быстро: ещё
четыре года назад даже постановку такой
задачи сложно было представить, а сегодня
мы имеем работающую модель, которая
понимает 101 язык и рисует реалистичные
изображения, которые зачастую неотличимы
от тех, что создают люди», – отметил первый заместитель председателя правления Сбербанка Александр Ведяхин.