"Сбер" разработал нейросеть, создающую картинки по словесному описанию

"Сбер" разработал нейросеть, которая генерирует изображения, используя текстовое описание на русском языке. Новинка может быть востребована в сфере дизайна и рекламы, сообщили в пресс-службе организации.

"Нейросеть ruDALL-E одновременно обучается на двух видах данных — изображениях и текстах — и позволяет создавать неограниченное число новых изображений по заданному описанию. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна", — уточняется в сообщении.

Одно из изображений, сгенерированных нейросетью

Специалисты создали 2 версии сети, содержащие разное количество параметров. Модель ruDALL-E XL можно бесплатно загрузить с сервиса Github, а оба варианта разработки, включая расширенную версию ruDALL-E 12B, представят на платформе ML Space компании SberCloud, входящей в экосистему "Сбера".

Изображение, созданное нейросетью по запросу "шикарная гостиная с зелеными креслами"

Изображения при помощи ruDALL-E генерируются в три этапа: сначала программа принимает текст и создает заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а потом увеличивает их в размере без потери качества. Аналогичная модель работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, но не была полностью выложена в открытый доступ.

В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар "текст — изображение". Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ.

По словам исполнительного вице-президента Сбербанка, технического директора (СТО) "Сбера", руководителя блока "Технологии" Давида Рафаловского, этот проект вносит большой вклад в развитие искусственного интеллекта. Его можно считать настоящим прорывом для русскоязычной индустрии, добавил он.

Генерация изображений также закрывает две важные потребности современного бизнеса: возможность получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в прошлом году, а еще в 2018–2019 годах даже постановку такого рода задачи нельзя было себе представить. Нейросеть ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии.

Ранее Ruposters писал, что нейросеть смогла восстановить скрытое изображение под картиной Пикассо.