Hasło słownika
Throughput
Ilość pracy wykonanej przez system w jednostce czasu - np. żądań na sekundę, tokenów na sekundę albo zadań na minutę.
DevOpskategoria
4aliasy
przepustowość wydajność przepływu tokens per second TPS
Opis
Throughput odpowiada na pytanie: ile system faktycznie przerabia, gdy jest obciążony. W AI może oznaczać tokeny na sekundę lub tokeny na wat, w backendzie RPS, a w pipeline liczbę jobów. Wysoki throughput bez dobrej latency nie zawsze oznacza dobry UX, dlatego te metryki trzeba czytać razem.
Przykłady
- Klaster zwiększa throughput inferencji, obsługując więcej tokenów na sekundę.
- API ma dobre latency dla jednego użytkownika, ale niski throughput pod większym ruchem.