Для понимания визуального контента

UK Data with all the active and accurate contact details. All is updated data
Post Reply
rochona
Posts: 521
Joined: Thu May 22, 2025 5:20 am

Для понимания визуального контента

Post by rochona »

LLMs ключевым моментом является преодоление разрыва между зрением и языком модальности . Поскольку LLMs не видели никаких изображений во время своего предварительного обучения естественному языку, преодолеть разрыв модальности сложно, особенно когда LLMs остаются замороженными. С этой целью мы предлагаем Querying Transformer (Q-Former), предварительно обученный с помощью новой двухэтапной стратегии предварительного обучения. Как показано на следующем рисунке, после предварительного обучения Q-Former может эффективно действовать как мост между замороженным кодировщиком изображений и замороженным LLM, тем самым закрывая разрыв модальности.


Обзор двухэтапной стратегии предварительной подготовки BLIP-2

Первый этап — обучение представлению зрения и языка . На этом этапе мы подключаем Q-Former к кодировщику замороженных изображений и предварительно обучаем с парами изображение-текст. Q-Former учится извлекать признаки изображения, которые для обучения представлению зрения и языка.


Обзор Q-Former и первого этапа обучения представлению зрительного языка в BLIP-2

Второй этап — генеративное обучение «видение-язык» . На этом этапе Магазин мы подключаем вывод Q-Former к замороженному LLM. Мы предварительно обучаем Q-Former таким образом, чтобы его выходные признаки могли быть интерпретированы LLM для генерации соответствующего текста. Мы экспериментируем как с LLM на основе декодера (например, OPT), так и с LLM на основе кодера-декодера (например, FlanT5).


Обзор второго этапа генеративного обучения «зрение-язык» в BLIP-2

Во время вывода мы просто добавляем текстовую инструкцию после вывода Q-Former в качестве ввода в LLM. Мы экспериментировали с различными кодировщиками изображений и LLM и пришли к многообещающему наблюдению: более сильный кодировщик изображений и более сильный LLM приводят к лучшей производительности с BLIP-2. Это наблюдение показывает, что BLIP-2 является универсальным методом предварительной подготовки языка зрения, который может эффективно использовать быстрые достижения в сообществах зрения и естественного языка. BLIP-2 является важной новаторской технологией на пути к созданию мультимодального разговорного агента ИИ.
Post Reply