эти примеры действительно интересны
Posted: Sun Jun 01, 2025 4:21 am
результаты
мы видели dog→ cat, а как насчет dog→ a certain breed of dog? здесь мы пробуем с полудюжиной разных пород:
поскольку они показывают, насколько edict сохраняет фон в первой и третьей строке или текст внизу.
однако edict может делать больше, чем просто превращать домашних млекопитающих в других домашних млекопитающих, он также может:
добавление контента (добавление чего-либо к сцене)
изменения контекста (сохранение объекта и помещение его в новую сцену)
изменение позы (деформация объекта в новую форму, это чрезвычайно сложная задача для методов, основанных на диффузии!)
изменения стиля (сохранение отображаемого контента тем же, но в другом носителе или обстановке)
более глубокое погружение
мы будем использовать этот раздел, чтобы более конкретно поговорить о математике, стоящей за edict. как правило, шаг диффузии генерации изображения имеет уравнение:
х' = а * х + ь * f(x)
где a и b — заданные коэффициенты, x — (в данный момент зашумленное) изображение, а f(x) — функция поиска шума. по мере того, как эти шаги становятся меньше, x и x' на любом данном шаге не слишком отличаются друг от друга, что означает, что f(x) и f(x') также ближе друг к другу.
нормальная инверсия диффузии приблизительно решает для x в приведенном выше уравнении следующее:
а* х = х' – b * f(x) → х = (х' – b * f(x) ) / а
мы не можем знать f(x), если не знаем x, поэтому подставляется f(x').
х ~= (х' – б * f(х') ) / а
на практике, как мы увидели, этот процесс работает не так хорошо, когда f также полагается на текстовое описание.
мы хотим иметь возможность работать со сложными и динамическими функциями f, не жертвуя стабильностью. для этого мы копируем x в другую последовательность y и следуем правилу обновления.
х' = а * х + b * f(y)
у' = а * у + b * f(x')
теперь предположим, что у нас есть x' и y', можем ли мы найти x и y? ответ — да!
у = (у' – b * f(x') ) / а
х = (х' – b * f(y) ) / а
итак, этот процесс абсолютно обратим, независимо от того, сколько шагов мы делаем! мы обнаруживаем, что последовательности x и y могут расходиться на практике; мы предположили, что f(x) и f(y) почти равны, что похоже на предположение о f(x) и f(x'), которое, как мы видели, сводит на нет наивные попытки инверсии. чтобы смягчить эту проблему, мы также вводим шаги усреднения для улучшения согласованности (см. нашу статью для дальнейшего обсуждения).
в целом это дает нам процесс, который очень похож на обычный процесс диффузии, но при этом является полностью обратимым.
воздействия
редактирование — это генерация с ожиданиями последовательности, и edict предлагает способ поддерживать эту последовательность при выполнении различных правок. до этого момента методы редактирования боролись гораздо больше с сохранением верности исходному изображению при включении желаемых правок.
с точки зрения бизнеса edict поможет графическим дизайнерам, предлагая способ с низкими затратами на внесение сложных правок. многие инструменты редактирования, сохраняющие Магазин контент, требуют ручного маскирования, в то время как edict достигает этого исключительно посредством ввода текста. это может значительно сократить время ввода пользователем и даже автоматизировать целые классы правок.
также растет все большее художественное сообщество вокруг генеративного ии, при этом многие текстовые подсказки чрезвычайно сложны для достижения желаемых результатов. структура текста, подаваемого в edict для редактирования, позволяет изменять небольшие аспекты описания, сохраняя другие элементы; этот тонкий контроль должен ускорить и улучшить циклы художественного генеративного ии.
мы видели dog→ cat, а как насчет dog→ a certain breed of dog? здесь мы пробуем с полудюжиной разных пород:
поскольку они показывают, насколько edict сохраняет фон в первой и третьей строке или текст внизу.
однако edict может делать больше, чем просто превращать домашних млекопитающих в других домашних млекопитающих, он также может:
добавление контента (добавление чего-либо к сцене)
изменения контекста (сохранение объекта и помещение его в новую сцену)
изменение позы (деформация объекта в новую форму, это чрезвычайно сложная задача для методов, основанных на диффузии!)
изменения стиля (сохранение отображаемого контента тем же, но в другом носителе или обстановке)
более глубокое погружение
мы будем использовать этот раздел, чтобы более конкретно поговорить о математике, стоящей за edict. как правило, шаг диффузии генерации изображения имеет уравнение:
х' = а * х + ь * f(x)
где a и b — заданные коэффициенты, x — (в данный момент зашумленное) изображение, а f(x) — функция поиска шума. по мере того, как эти шаги становятся меньше, x и x' на любом данном шаге не слишком отличаются друг от друга, что означает, что f(x) и f(x') также ближе друг к другу.
нормальная инверсия диффузии приблизительно решает для x в приведенном выше уравнении следующее:
а* х = х' – b * f(x) → х = (х' – b * f(x) ) / а
мы не можем знать f(x), если не знаем x, поэтому подставляется f(x').
х ~= (х' – б * f(х') ) / а
на практике, как мы увидели, этот процесс работает не так хорошо, когда f также полагается на текстовое описание.
мы хотим иметь возможность работать со сложными и динамическими функциями f, не жертвуя стабильностью. для этого мы копируем x в другую последовательность y и следуем правилу обновления.
х' = а * х + b * f(y)
у' = а * у + b * f(x')
теперь предположим, что у нас есть x' и y', можем ли мы найти x и y? ответ — да!
у = (у' – b * f(x') ) / а
х = (х' – b * f(y) ) / а
итак, этот процесс абсолютно обратим, независимо от того, сколько шагов мы делаем! мы обнаруживаем, что последовательности x и y могут расходиться на практике; мы предположили, что f(x) и f(y) почти равны, что похоже на предположение о f(x) и f(x'), которое, как мы видели, сводит на нет наивные попытки инверсии. чтобы смягчить эту проблему, мы также вводим шаги усреднения для улучшения согласованности (см. нашу статью для дальнейшего обсуждения).
в целом это дает нам процесс, который очень похож на обычный процесс диффузии, но при этом является полностью обратимым.
воздействия
редактирование — это генерация с ожиданиями последовательности, и edict предлагает способ поддерживать эту последовательность при выполнении различных правок. до этого момента методы редактирования боролись гораздо больше с сохранением верности исходному изображению при включении желаемых правок.
с точки зрения бизнеса edict поможет графическим дизайнерам, предлагая способ с низкими затратами на внесение сложных правок. многие инструменты редактирования, сохраняющие Магазин контент, требуют ручного маскирования, в то время как edict достигает этого исключительно посредством ввода текста. это может значительно сократить время ввода пользователем и даже автоматизировать целые классы правок.
также растет все большее художественное сообщество вокруг генеративного ии, при этом многие текстовые подсказки чрезвычайно сложны для достижения желаемых результатов. структура текста, подаваемого в edict для редактирования, позволяет изменять небольшие аспекты описания, сохраняя другие элементы; этот тонкий контроль должен ускорить и улучшить циклы художественного генеративного ии.