Hasło słownika

Multimodalność

Zdolność modelu do pracy na wielu typach danych, np. tekście, obrazie i dźwięku.

AIkategoria

3aliasy

Kategoria: AI

Aliasy: Multimodal Vision-language model VLM

Opis

Model multimodalny może analizować obraz, opisywać go, odpowiadać na pytania na jego temat lub łączyć dane wizualne z tekstem. To otwiera use-case'y typu analiza dokumentów, UI i wideo.

Przykłady

Model opisuje screen błędu i podpowiada, co kliknąć.
Asystent analizuje zdjęcie produktu i tworzy opis do sklepu.

Multimodalność

Opis

Przykłady

Zobacz też