NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
A gdyby zamiast kupować gotowego chatbota, zbudować własny model klasy „frontier” – taki, który rozumie tylko wasz biznes, wasze dokumenty i wasze skróty myślowe? Amazon na re:Invent dowiózł dwa ruchy, które mogą to umożliwić: drugą generację modeli Nova (w tym warianty Lite i Pro) o…