Hasło słownika

Multimodalność

Zdolność modelu do pracy na wielu typach danych, np. tekście, obrazie i dźwięku.

AIkategoria
3aliasy
Kategoria: AI
Aliasy: Multimodal Vision-language model VLM

Opis

Model multimodalny może analizować obraz, opisywać go, odpowiadać na pytania na jego temat lub łączyć dane wizualne z tekstem. To otwiera use-case'y typu analiza dokumentów, UI i wideo.

Przykłady

  • Model opisuje screen błędu i podpowiada, co kliknąć.
  • Asystent analizuje zdjęcie produktu i tworzy opis do sklepu.