В Google научили нейросеть редактировать изображение по текстовому описанию

Разработчики Google научили нейросеть Imagic редактировать изображение по текстовому описанию. Первые работы уже появились на репозитории препринтов arXiv.

Алгоритму не нужны редакторские манипуляции - он работает исключительно по текстовому описанию правок. Для теста исследователи использовали фото сидящей собаки, попросив нейросеть исправить снимок так, чтобы животное на нем стояло, но другие элементы не были бы затронуты. После того как нейросеть "поставила" собаку, удалось получить фото той же собаки, ловящей фрисби, и т.д. Компьютер применил диффузионный метод, улучшая кадр на протяжении десятков стадий. Таким же образом фото птицы было изменено так, что птица "подняла" крылья.

Режим редактирования изображений по текстовому описанию в нейросети

Главное нововведение - работа алгоритма с прекурсорами. Текст попадает на генеративную нейросеть не сразу. Он подается на кодировщик, превращающий слова в сжатое векторное направление (эмбеддинг). Оно кодирует идею так, что похожие по смыслу предложения содержат аналогичные эмбеддинги. Нейросеть работает конкретно с текстовыми эмбеддингами.

Летом этого года российская IT-компания "Яндекс" выложила в интернет код YaLM 100B — нейросети для г енерации и обработки текстов на русском и английском языках. По информации "Яндекса", это самая большая русскоязычная нейросеть, опубликованная в свободном доступе. Об этом сообщила пресс-служба компании.