Hasło słownika

Throughput

Ilość pracy wykonanej przez system w jednostce czasu - np. żądań na sekundę, tokenów na sekundę albo zadań na minutę.

DevOpskategoria
4aliasy
Kategoria: DevOps
Aliasy: przepustowość wydajność przepływu tokens per second TPS

Opis

Throughput odpowiada na pytanie: ile system faktycznie przerabia, gdy jest obciążony. W AI może oznaczać tokeny na sekundę lub tokeny na wat, w backendzie RPS, a w pipeline liczbę jobów. Wysoki throughput bez dobrej latency nie zawsze oznacza dobry UX, dlatego te metryki trzeba czytać razem.

Przykłady

  • Klaster zwiększa throughput inferencji, obsługując więcej tokenów na sekundę.
  • API ma dobre latency dla jednego użytkownika, ale niski throughput pod większym ruchem.