Google pokazuje TurboQuant. Na papierze wygląda to jak rewolucja

Szybsze działania, mniejsze wymagania co do mocy obliczeniowej i... taka sama dokładność. Brzmi to wręcz zbyt dobrze, a więcej dowiemy się już w kwietniu.

Przemysław Banasiak (Yokai)
0
Udostępnij na fb
Udostępnij na X
Google pokazuje TurboQuant. Na papierze wygląda to jak rewolucja

Google pochwaliło się nową techniką kompresji dla dużych modeli językowych. Algorytm TurboQuant ma pozwalać na mocne zmniejszenie zużycia pamięci przez tzw. KV cache, a przy tym nie pogarszać jakości działania modelu. Według zaprezentowanych wyników rozwiązanie potrafi sprowadzić zapis tych danych nawet do 3 bitów bez straty dokładności.

Dalsza część tekstu pod wideo

TurboQuant sprawdza się również w wyszukiwaniu wektorowym

KV cache to jeden z kluczowych elementów LLM-ów. To właśnie tam trafiają wcześniej wyliczone dane, co oszczędza moc obliczeniową przy generowaniu kolejnych tokenów. Problem w tym, że wraz ze wzrostem długości kontekstu taka pamięć zaczyna coraz mocniej obciążać sprzęt. Dotychczasowe metody kompresji pomagały tylko częściowo, bo oprócz samych skompresowanych danych trzeba było przechowywać jeszcze dodatkowe stałe kwantyzacji, które z czasem także zaczynały istotnie zwiększać narzut.

TurboQuant ma ten problem omijać. Google zastosowało tu dwuetapowe podejście. Pierwszy krok to PolarQuant, która zamienie klasyczny zapis wektorów w układzie kartezjańskim na współrzędne biegunowe. Pozwala to oddzielić informację o długości wektora od informacji o jego kierunku. Dzięki temu algorytm może pominąć kosztowny etap normalizacji bloków, a jednocześnie uniknąć dodatkowego narzutu pamięciowego wynikającego z przechowywania stałych kwantyzacji.

Drugi etap to 1-bitowa warstwa korekcji oparta na algorytmie Quantized Johnson-Lindenstrauss. Jej zadaniem jest ograniczenie błędu resztkowego powstającego podczas kwantyzacji i zminimalizowanie systematycznych przekłamań w wyliczaniu wyników. Google przekonuje, że dodatkowy koszt działania tej warstwy jest pomijalny, a efekt końcowy pozwala zachować pełną jakość działania modeli nawet przy bardzo agresywnej kompresji.

Firma sprawdziła nowe rozwiązanie na szeregu benchmarków dla długiego kontekstu. Testy prowadzono na modelach Gemma i Mistral. W Needle In A Haystack TurboQuant miał utrzymać idealne wyniki przy co najmniej sześciokrotnym zmniejszeniu zapotrzebowania na pamięć KV. Z kolei w pakiecie LongBench, obejmującym m.in. pytania i odpowiedzi, generowanie kodu oraz streszczanie, nowy algorytm miał dorównywać lub przewyższać bazową metodę KIVI we wszystkich zadaniach.

Google pokazuje TurboQuant. Na papierze wygląda to jak rewolucja

Google twierdzi też, że TurboQuant dobrze sprawdza się nie tylko w inferencji modeli językowych, ale również w wyszukiwaniu wektorowym. Dodatkową zaletą ma być brak potrzeby trenowania czy dostrajania algorytmu, co otwiera drogę do wdrożeń w środowiskach produkcyjnych. Pełne opracowanie współautorstwa Amira Zandieha i Vahaba Mirrokniego ma zostać zaprezentowany podczas ICLR 2026 w przyszłym miesiącu.

Google pokazuje TurboQuant. Na papierze wygląda to jak rewolucja