NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
PressMind Labs / Temat
Półprzewodniki, chipy, GPU i łańcuch dostaw hardware'u. Analizy rynku układów, produkcji, AI compute i geopolityki technologii.
Powiązane wejścia
Ostatnie materiały w kategorii Półprzewodniki i chipy.
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
Ile razy widziałeś GPU ziewające w tle, gdy CPU mozolnie liczy listy sąsiedztwa atomów? Jeśli Twoje symulacje „AI-powered” w chemii i materiałoznawstwie jadą na hamulcu ręcznym, NVIDIA właśnie dorzuciła brakujący bieg.
Czy 60 ogłoszeń w rok to jeszcze kalendarz, czy już feed z dopalaczem? Jeśli śledzisz Google, 2025 był właśnie taki: co miesiąc nowy klocek, a z końcem roku – dość wyraźny obrazek tego, dokąd AI zmierza.
Jak sprawdzić komputer kwantowy, którego… już nie da się klasycznie zasymulować?
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czy da się wygrać wyścig o sztuczną inteligencję, nie machając czekiem na miliard dolarów? Lisa Su uważa, że tak – i mówi to z pewnością kogoś, kto już raz wyciągnął firmę z krawędzi.
Czy da się dogonić C++ wydajnością, pisząc w Pythonie – i to bez czarów, bez sugar-coata i bez tygodni czekania na kompilację? NVIDIA twierdzi, że tak: nowy CuTe DSL w CUTLASS 4 obiecuje „C++-owe” osiągi Tensor Cores z wygodą pythonowych API.
Ile warte jest czyjeś całe życie, gdy na stole leży 100 miliardów dolarów i obietnica „odzyskania” produkcji chipów w USA? W hrabstwie Onondaga w stanie Nowy Jork odpowiedź właśnie przejechała obok na pace buldożera.
Fikcyjna agencja nieruchomości, która sprowadza do Chin superkomputery i topowe GPU Nvidii. Brzmi jak scenariusz kiepskiego thrillera?
Czy da się mieć C++-ową wydajność bez pokutnych minut spędzanych na kompilacji? NVIDIA twierdzi, że tak – i stawia na CuTe DSL dla Pythona.