Универсальный против специфического

UK Data with all the active and accurate contact details. All is updated data
Post Reply
rochona
Posts: 521
Joined: Thu May 22, 2025 5:20 am

Универсальный против специфического

Post by rochona »

OpenAI только что выпустила GPT-4, мощную новую многомодальную модель ИИ с ее привлекательной способностью принимать входные изображения для генерации текста. Однако такая возможность не нова, что было продемонстрировано в наших последних моделях BLIP-2 и прототипе, выпущенном 30 января 2023 года. Наш новый метод BLIP-2 позволяет нам создать первый в мире прототип многомодального чат-бота с открытым исходным кодом. Ниже мы обсудим различия между нашей моделью BLIP-2 и GPT-4 OpenAI.

BLIP-2 против GPT-4

BLIP-2 — это новая и универсальная мультимодальная предварительная методология для предварительной подготовки зрительно-языкового обучения, которая может позволить любой семье LLM понимать изображения и разблокировать возможности генерации изображений в текст с нулевого кадра. GPT-4 — это особый тип предобученной модели, и ее техническая новизна неясна (не раскрыта).

Неконтролируемое обучение против (предположительно) контролируемого Магазин обучения : BLIP-2 обучается на больших объемах зашумленных пар изображение-текст, автоматически сканируемых из Интернета. Хотя парадигма обучения GPT-4 не была опубликована, из ChatGPT можно сделать обоснованный вывод, что GPT-4 мог использовать большие наборы данных, аннотированные человеком.
BLIP-2 — это масштабируемый мультимодальный метод предварительной подготовки, который позволяет любым LLM понимать изображения, сохраняя их параметры полностью замороженными. Он значительно более эффективен с точки зрения вычислений, чем существующие мультимодальные методы предварительной подготовки. Почему? BLIP-2 эффективно запускает предварительную подготовку Language-Image с замороженными кодировщиками изображений и замороженными LLM. Например, чтобы преобразовать существующую 11B-LLM в современную мультимодальную базовую модель, требуется обучение всего лишь менее 2% параметров (всего 188 млн обучаемых параметров).

BLIP-2 — первый, кто разблокировал возможность генерации изображения в текст с инструкцией по нулевому кадру . При наличии входного изображения BLIP-2 может генерировать различные ответы на естественном языке в соответствии с инструкциями пользователя. На следующем рисунке показаны некоторые примеры из BLIP-2.
Post Reply