Генерация изображений с помощью ИИ

Обновлено: 12.10.2022
Технологии машинного обучения позволяют автоматически генерировать изображения по описанию. Генерация изображений может применяться для бизнеса в следующих приложениях:
- маркетинг в социальных сетях
- поисковая оптимизация сайтов
- дизайн продукции

Примеры использования генерации картинок для бизнеса с помощью искусственного интеллекта приведены ниже.

См. также: Топ 10: Онлайн графические редакторы

2022. Microsoft представила приложение для графических дизайнеров Designer на базе DALL-E 2



Microsoft представила сервис Designer, построенный на базе нейросети DALL-E 2 от OpenAI, которая генерирует картинки по текстовому описанию и редактирует уже готовые. Например, на сайте указано, что пользователи могут ввести описание изображения или дизайна, а затем использовать его в своём проекте. В сервисе также будут доступны готовые шаблоны, изображения и фигуры для создания дизайна. Как только приложение откроют для всех, воспользоваться им бесплатно смогут владельцы подписки Microsoft 365.


2022. Midjourney - нейросеть генерирующая картинки по текстовому описанию



Проект Midjourney разработал нейросеть, которая умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать. Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов. Сейчас сетка находится на этапе открытого бета-тестирования.


2022. Stable Diffusion - open-source альтернатива DALL·E 2



Компания Stability.ai объявила о публичном релизе модели графической нейросети Stable Diffusion. В отличие от сравнимых с ней по качеству DALL·E 2 и Midjourney, нейросеть Stable Diffusion имеет открытый исходный код. Поэтому любой желающий может бесплатно создавать на её основе приложения для решения конкретных задач по преобразованию текста в изображение. Кроме того, в отличие от сопоставимых по открытости кода DALL·E mini (Craiyon) и Disco Diffusion, Stable Diffusion позволяет создавать фотореалистичные и эстетичные произведения искусства, не уступающие по качеству моделям OpenAI и Google. Stable Diffusion воплощает всё лучшее, что есть в нейросетях мира искусства: это, возможно, лучшая из существующих графических нейросетей с открытым исходным кодом. Она пока не имеет аналогов, и её, без сомнения, ждёт большое будущее.


2022. Нейросеть для генерации картинок Stable Diffusion вышла в открытый доступ



Команда разработчиков Stability AI объявила о завершении этапа закрытого бета-тестирования их нейросети для генерации изображений Stable Diffusion. Теперь для всех желающих открыт свободный доступ к генерации изображений. Исходный код для запуска нейросети также находится в открытом доступе. Правда, для запуска Stable Diffusion на своем компьютере понадобится видеокарта NVIDIA с 6-7 Гб видеопамяти на борту. Stable Diffusion является результатом сотрудничества между исследователями Stability AI, RunwayML, LMU Munich, EleutherAI и LAION. Нейросеть позволяет генерировать изображение по описанию и является прямым конкурентом давно известных DALL-E 2 и Midjourney.


2022. Google разработала улучшенный аналог нейросети DALL-E для генерации изображений



В 2021 году OpenAI представила нейросеть DALL-E, которая генерирует изображения по текстовому описанию, сформулированному простым языком. В DALL-E 2, представленной в начале апреля, исследователи модифицировали архитектуру модели и добились уже довольно качественной генерации в том числе и фотореалистичных изображений. Спустя полтора месяца исследователи из Google представили свою генеративную нейросетевую модель Imagen, которая архитектурно похожа на DALL-E 2, но все же имеет некоторые отличия и добивается лучших результатов. Imagen обучалась на собственных датасетах Google, в которых было суммарно 460 миллионов пар «изображение-описание», а также на публично доступном датасете Laion с 400 миллионами пар. В результате разработчикам удалось создать модель с высоким качеством генерации изображений разных типов.


2022. OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию



OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021-го. Программа теперь генерирует до четырёх раз более качественные изображения, чем предыдущая версия, опираясь лишь на описание на английском языке. На фото слева показаны возможности первой версии, а справа — на что способна обновлённая. Нейросеть научилась добавлять на изображения новые объекты и редактировать фотографии. DALL-E 2 может, например, заменить на изображении собаку на кота, или добавить надувного фламинго в интерьер. На примерах ниже слева находится оригинал, а справа — изображение после обработки нейросетью.


2021. Нейросеть от NVIDIA создает картинку по описанию. Как это выглядит


Американский производитель графических процессоров NVIDIA представил нейросеть GauGAN2, которая создает картинки по описанию. Достаточно предложения из трех-четырех слов. Пользователь может описать, что хочет увидеть на картинке, например «солнце в лесу» или «каменный пляж на закате». Нейросеть моментально реагирует на изменение запроса, поэтому его можно редактировать, пока не получиться нужный результат. Еще GauGAN2 позволяет создать карту сегментации. В ней можно начертить, как объекты будут располагаться на картинке.


2021. Сбер создал нейросеть, генерирующую картинки по описанию на русском языке



Сбер представил нейросеть ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна. Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики. Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив её с сервиса GitHub. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.