Page 1 of 1

эти примеры действительно интересны

Posted: Sun Jun 01, 2025 4:21 am
by rochona
результаты
мы видели dog→ cat, а как насчет dog→ a certain breed of dog? здесь мы пробуем с полудюжиной разных пород:

поскольку они показывают, насколько edict сохраняет фон в первой и третьей строке или текст внизу.

однако edict может делать больше, чем просто превращать домашних млекопитающих в других домашних млекопитающих, он также может:

добавление контента (добавление чего-либо к сцене)


изменения контекста (сохранение объекта и помещение его в новую сцену)


изменение позы (деформация объекта в новую форму, это чрезвычайно сложная задача для методов, основанных на диффузии!)


изменения стиля (сохранение отображаемого контента тем же, но в другом носителе или обстановке)


более глубокое погружение
мы будем использовать этот раздел, чтобы более конкретно поговорить о математике, стоящей за edict. как правило, шаг диффузии генерации изображения имеет уравнение:

х' = а * х + ь * f(x)

где a и b — заданные коэффициенты, x — (в данный момент зашумленное) изображение, а f(x) — функция поиска шума. по мере того, как эти шаги становятся меньше, x и x' на любом данном шаге не слишком отличаются друг от друга, что означает, что f(x) и f(x') также ближе друг к другу.

нормальная инверсия диффузии приблизительно решает для x в приведенном выше уравнении следующее:

а* х = х' – b * f(x) → х = (х' – b * f(x) ) / а

мы не можем знать f(x), если не знаем x, поэтому подставляется f(x').

х ~= (х' – б * f(х') ) / а

на практике, как мы увидели, этот процесс работает не так хорошо, когда f также полагается на текстовое описание.

мы хотим иметь возможность работать со сложными и динамическими функциями f, не жертвуя стабильностью. для этого мы копируем x в другую последовательность y и следуем правилу обновления.

х' = а * х + b * f(y)
у' = а * у + b * f(x')

теперь предположим, что у нас есть x' и y', можем ли мы найти x и y? ответ — да!

у = (у' – b * f(x') ) / а
х = (х' – b * f(y) ) / а

итак, этот процесс абсолютно обратим, независимо от того, сколько шагов мы делаем! мы обнаруживаем, что последовательности x и y могут расходиться на практике; мы предположили, что f(x) и f(y) почти равны, что похоже на предположение о f(x) и f(x'), которое, как мы видели, сводит на нет наивные попытки инверсии. чтобы смягчить эту проблему, мы также вводим шаги усреднения для улучшения согласованности (см. нашу статью для дальнейшего обсуждения).

в целом это дает нам процесс, который очень похож на обычный процесс диффузии, но при этом является полностью обратимым.

воздействия
редактирование — это генерация с ожиданиями последовательности, и edict предлагает способ поддерживать эту последовательность при выполнении различных правок. до этого момента методы редактирования боролись гораздо больше с сохранением верности исходному изображению при включении желаемых правок.

с точки зрения бизнеса edict поможет графическим дизайнерам, предлагая способ с низкими затратами на внесение сложных правок. многие инструменты редактирования, сохраняющие Магазин контент, требуют ручного маскирования, в то время как edict достигает этого исключительно посредством ввода текста. это может значительно сократить время ввода пользователем и даже автоматизировать целые классы правок.

также растет все большее художественное сообщество вокруг генеративного ии, при этом многие текстовые подсказки чрезвычайно сложны для достижения желаемых результатов. структура текста, подаваемого в edict для редактирования, позволяет изменять небольшие аспекты описания, сохраняя другие элементы; этот тонкий контроль должен ускорить и улучшить циклы художественного генеративного ии.