Hasło słownika

Koszt inferencji

Koszt uruchomienia modelu AI w trybie produkcyjnym, liczony np. na zapytanie, token, użytkownika albo zadanie agenta.

AIkategoria
5aliasy
Kategoria: AI
Aliasy: cost of inference inference cost kosztu inferencji koszt tokena koszt wygenerowania odpowiedzi

Opis

Koszt inferencji jest jednym z najważniejszych ograniczeń biznesowych w produktach AI. Model może świetnie działać w demo, ale jeśli każda odpowiedź wymaga drogiego GPU, wielu kroków agenta i dużego kontekstu, marża szybko znika. Dlatego zespoły optymalizują model, cache, batching, routing do tańszych modeli, kwantyzację i wybór sprzętu.

Przykłady

  • Niższy koszt inferencji poprawia unit economics aplikacji AI.
  • Produkt może używać większego modelu tylko dla trudnych zapytań, a proste kierować do tańszego.