Hasło słownika
Multimodalność
Zdolność modelu do pracy na wielu typach danych, np. tekście, obrazie i dźwięku.
AIkategoria
3aliasy
Multimodal Vision-language model VLM
Opis
Model multimodalny może analizować obraz, opisywać go, odpowiadać na pytania na jego temat lub łączyć dane wizualne z tekstem. To otwiera use-case'y typu analiza dokumentów, UI i wideo.
Przykłady
- Model opisuje screen błędu i podpowiada, co kliknąć.
- Asystent analizuje zdjęcie produktu i tworzy opis do sklepu.