NVIDIA wprowadza CuTe DSL w CUTLASS 4 – Python zbliża się do C++ w wydajności
Czy da się dogonić C++ wydajnością, pisząc w Pythonie – i to bez czarów, bez sugar-coata i bez tygodni czekania na kompilację? NVIDIA twierdzi, że tak: nowy CuTe DSL w CUTLASS 4 obiecuje „C++-owe” osiągi Tensor Cores z wygodą pythonowych API.