Aplikacje

Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy

Nawet jeśli nie korzystasz na co dzień z chatbotów AI, nieustannie trafiasz na treści przez nie wygenerowane. Tymczasem w najlepszym wypadku w zaledwie 69% mówią one prawdę.

LECH OKOń (LUIN) 15 GRU 2025

Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy

Dodaj do ulubionych źródeł w Google

Google pochwalił się badaniem, które zmusza do smutnej refleksji

Google opublikował w zeszłym tygodniu badanie, które powinno zmrozić krew w żyłach każdemu użytkownikowi chatbotów AI. Korzystając z narzędzia FACTS Benchmark Suite, Google wykazał, że nawet najlepsze modele sztucznej inteligencji osiągają zaledwie 69 procent faktograficznej dokładności w odpowiadaniu na pytania.

Dalsza część tekstu pod wideo

To oznacza, że na każde trzy pytania, jedna odpowiedź będzie błędna – niezależnie od tego, jak pewnie i płynnie chatbot formułuje swoją wypowiedź.

Wybrane okazje dla Ciebie

Reklama

Smartfon APPLE iPhone 15 Pro Max (odnowiony, nieaktywowany) 5G 256GB 6.7" 120Hz Tytan Czarny (CPO) 2x eSIM

0 zł

~~4299.99 zł~~ - najniższa cena

Kup teraz 4299.99 zł

Smartfon DOOGEE Fire 7 5G 4/256GB 6.6" 90Hz Szary

0 zł

~~889.99 zł~~ - najniższa cena

Kup teraz 889.99 zł

Smartfon XIAOMI Redmi 15 8/256GB 6.9" 144Hz Czarny

0 zł

~~596.4 zł~~ - najniższa cena

Kup teraz 596.4 zł

Google chciał się pochwalić, ale czy jest już czym?

Wyniki badania ujawniły ogromne różnice między modelami. Google Gemini 3 Pro zajął pierwsze miejsce z wynikiem 69 procent, a modele konkurencji zaoferowały dramatycznie mniejszą skuteczność. ChatGPT-5 osiągnął około 62 procent, Claude 4.5 Opus około 51 procent, a Grok 4 około 54 procent.

Te liczby są alarmujące, biorąc pod uwagę szerokie rozpowszechnienie narzędzi AI w biznesie i edukacji oraz fakt, że zdecydowana większość osób korzysta z darmowych wersji, o jeszcze niższej skuteczności niż ich płatnych odpowiedników.

FACTS Benchmark Suite testuje dokładność faktyczną w czterech rzeczywistych scenariuszach użycia. Pierwsza kategoria to wiedza parametryczna – zdolność do udzielania odpowiedzi na pytania faktyczne, korzystając wyłącznie z wiedzy zdobytej podczas treningu. Druga to efektywność wyszukiwania, mierząca, jak dobrze modele wykorzystują narzędzia internetowe do pobrania dokładnych informacji. Trzecia kategoria to ukorzenienie, czyli czy model pozostaje wierny dostarczonemu dokumentowi bez dodawania fałszywych szczegółów. Czwarta dotyczy zrozumienia multimodalnego – na przykład prawidłowego odczytywania wykresów, diagramów i obrazów.

Najtrudniejszą sferą dla wszystkich modeli okazały się zadania multimodalne, gdzie dokładność z reguły spadała poniżej 50 procent. Przerobienie np. zdjęcia tabeli na arkusz i potem wykorzystanie takiego dokumentu niesie tym samym za sobą duże ryzyka dla użytkowników.

Pełne wyniki badania w języku angielskim znaleźć można pod tym adresem.

Google ChatGPT Gemini skuteczność ai

Źródła zdjęć: Google, Tada Images / Shutterstock

Źródła tekstu: Google, oprac. wł

Zobacz więcej

Aplikacje 19 CZE 2026

Spaliła mu się karta graficzna. Sklep umywa ręce

Holandia zaprzecza. Amerykanie opowiadają banialuki

Intel znalazł człowieka od zadań specjalnych. Stawką są miliardy

Valve ma problem. Gracze muszą czekać do 2027 roku

Weekend na działce? Nie rezygnuj ze sportowych emocji

iRobot Roomba - prezentacja nowości na 2026 rok

Olej kaucje. Jimmy ma zestawy wymykające się ustawie

Nie wystarcza Ci zwykły laptop? ASUS ma dla Ciebie rozwiązanie

KNF miażdży mBank. Milionowe kary i poważne zarzuty wobec giganta

PKO BP od dziś z nową opcją. Wystarczy kilka sekund

Przelew zatrzymany w ostatniej chwili. To była decyzja banku

Bank Millennium rozdaje kasę. Na klientów czeka bonus do 700 zł

Dziś największa premiera tygodnia. Apple TV wyciąga niezły hit

Netflix szykuje niezłe fantasy. Łowca duchów czy koreański Wiedźmin?

Play ułatwia telewizję. Nagrywanie serii i logowanie SMS w nowym wydaniu

Disney+ traci ważne funkcje. Płać tyle samo za mniej

Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy

Google pochwalił się badaniem, które zmusza do smutnej refleksji

Google chciał się pochwalić, ale czy jest już czym?

Zobacz więcej

Innych aplikacji nie zainstalujesz. Google zapowiada zmiany

Gmail wariuje na Pixelach. Odpowiedź na maila zamienia się w walkę z AI

InPost 1 lipca kończy usługi. Tysiące Polaków odciętych (aktualizacja)

Wyszukiwarka

Menu

Nasze strony