Общество

"Сбер" разработал нейросеть, создающую картинки по словесному описанию

"Сбер" разработал нейросеть, создающую картинки по словесному описанию

"Сбер" разработал нейросеть, которая генерирует изображения, используя текстовое описание на русском языке. Новинка может быть востребована в сфере дизайна и рекламы, сообщили в пресс-службе организации.

"Нейросеть ruDALL-E одновременно обучается на двух видах данных — изображениях и текстах — и позволяет создавать неограниченное число новых изображений по заданному описанию. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна", — уточняется в сообщении.

Одно из изображений, сгенерированных нейросетью

Специалисты создали 2 версии сети, содержащие разное количество параметров. Модель ruDALL-E XL можно бесплатно загрузить с сервиса Github, а оба варианта разработки, включая расширенную версию ruDALL-E 12B, представят на платформе ML Space компании SberCloud, входящей в экосистему "Сбера".

Изображение, созданное нейросетью по запросу "шикарная гостиная с зелеными креслами"

Изображения при помощи ruDALL-E генерируются в три этапа: сначала программа принимает текст и создает заданное число картинок, на следующем этапе она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а потом увеличивает их в размере без потери качества. Аналогичная модель работы с англоязычным текстом была представлена американской компанией OpenAI в 2021 году, но не была полностью выложена в открытый доступ.

В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар "текст — изображение". Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ.

По словам исполнительного вице-президента Сбербанка, технического директора (СТО) "Сбера", руководителя блока "Технологии" Давида Рафаловского, этот проект вносит большой вклад в развитие искусственного интеллекта. Его можно считать настоящим прорывом для русскоязычной индустрии, добавил он.

Генерация изображений также закрывает две важные потребности современного бизнеса: возможность получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в прошлом году, а еще в 2018–2019 годах даже постановку такого рода задачи нельзя было себе представить. Нейросеть ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии.

Ранее Ruposters писал, что нейросеть смогла восстановить скрытое изображение под картиной Пикассо.