poniedziałek, 27 kwietnia 2026 r.
25.03.2026 18:55
24 wyświetleń
0 komentarzy
nophoto
Szybsze działania, mniejsze wymagania co do mocy obliczeniowej i... taka sama dokładność. Brzmi to wręcz zbyt dobrze, a więcej dowiemy się już w kwietniu.Google pochwaliło się nową techniką kompresji dla dużych modeli językowych. Algorytm TurboQuant ma pozwalać na mocne zmniejszenie zużycia pamięci przez tzw. KV cache, a przy tym nie pogarszać jakości działania modelu. Według zaprezentowanych wyników rozwiązanie potrafi sprowadzić zapis tych danych nawet do 3 bitów bez straty dokładności.TurboQuant sprawdza się również w wyszukiwaniu wektorowymKV cache to jeden z kluczowych elementów LLM-ów. To właśnie tam trafiają wcześniej wyliczone dane, co oszczędza moc obliczeniową przy generowaniu kolejnych tokenów. Problem w tym, że wraz ze wzrostem długości kontekstu taka pamięć zaczyna coraz mocniej obciążać sprzęt. Dotychczasowe metody kompresji pomagały tylko częściowo, bo oprócz samych skompresowanych danych trzeba było przechowywać jeszcze dodatkowe stałe kwantyzacji, które z czasem także zaczynały istotnie zwiększać narzut.

Zobacz cały artykuł w serwisie www.telepolis.pl »

Komentarze:
Najczęściej czytane
19.03.2026 17:32
190 wyświetleń
źródło: www.telepolis.pl
17.03.2026 18:41
187 wyświetleń
źródło: www.telepolis.pl
17.03.2026 17:17
186 wyświetleń
źródło: www.telepolis.pl
27.02.2026 16:21
167 wyświetleń
źródło: www.telepolis.pl
11.03.2026 11:40
155 wyświetleń
źródło: www.telepolis.pl
04.03.2026 18:46
154 wyświetleń
źródło: www.telepolis.pl
13.03.2026 18:03
145 wyświetleń
źródło: www.telepolis.pl
22.04.2026 19:42
112 wyświetleń
źródło: www.telepolis.pl
02.03.2026 11:02
109 wyświetleń
źródło: www.telepolis.pl
26.02.2026 17:56
108 wyświetleń
źródło: www.telepolis.pl