что делают эти нейронные сети для генерации изображения из текста. класс моделей, о которых мы сегодня говорим (модели диффузии), обучен восстанавливать изображение из шума (статики); имея изображение с добавленным шумом (то, что мы называем «шумным изображением») и описание изображения, модель возвращает очищенную версию изображения.
слева : целевое изображение, которое модель пытается восстановить. справа : зашумленные версии изображения, переданные модели с заданной подписью ниже.
как шумоподавление изображений помогает генерировать новые изображения? хитрость в том, что когда мы хотим совершенно новое поколение, мы можем просто дать модели чистое шумовое изображение и сообщить ей описание того, что мы хотим увидеть. сеть не обучена никогда ничего не находить, поэтому она будет галлюцинировать реальное изображение из шума! вместо того, чтобы выполнять этот процесс за один шаг, мы предпринимаем пошаговые последовательные шаги шумоподавления, чтобы позволить сети создавать более мелкие детали. вот пример с той же подписью, что и выше:
мотивация
редактирование изображений во многих отношениях оказывается Магазин более сложной задачей, чем генерация изображений. ключевой вопрос — это ожидания: если я прошу модель создать «кота, занимающегося серфингом», я обычно доволен полученным изображением, пока оно содержит кота, занимающегося серфингом. мне все равно, какой это кот, стоит ли он (в правильной форме серфинга) или падает в воду (как типичная форма серфинга этого автора).