Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy
Nawet jeśli nie korzystasz na co dzień z chatbotów AI, nieustannie trafiasz na treści przez nie wygenerowane. Tymczasem w najlepszym wypadku w zaledwie 69% mówią one prawdę.
Google pochwalił się badaniem, które zmusza do smutnej refleksji
Google opublikował w zeszłym tygodniu badanie, które powinno zmrozić krew w żyłach każdemu użytkownikowi chatbotów AI. Korzystając z narzędzia FACTS Benchmark Suite, Google wykazał, że nawet najlepsze modele sztucznej inteligencji osiągają zaledwie 69 procent faktograficznej dokładności w odpowiadaniu na pytania.
To oznacza, że na każde trzy pytania, jedna odpowiedź będzie błędna – niezależnie od tego, jak pewnie i płynnie chatbot formułuje swoją wypowiedź.
Google chciał się pochwalić, ale czy jest już czym?
Wyniki badania ujawniły ogromne różnice między modelami. Google Gemini 3 Pro zajął pierwsze miejsce z wynikiem 69 procent, a modele konkurencji zaoferowały dramatycznie mniejszą skuteczność. ChatGPT-5 osiągnął około 62 procent, Claude 4.5 Opus około 51 procent, a Grok 4 około 54 procent.
Te liczby są alarmujące, biorąc pod uwagę szerokie rozpowszechnienie narzędzi AI w biznesie i edukacji oraz fakt, że zdecydowana większość osób korzysta z darmowych wersji, o jeszcze niższej skuteczności niż ich płatnych odpowiedników.
FACTS Benchmark Suite testuje dokładność faktyczną w czterech rzeczywistych scenariuszach użycia. Pierwsza kategoria to wiedza parametryczna – zdolność do udzielania odpowiedzi na pytania faktyczne, korzystając wyłącznie z wiedzy zdobytej podczas treningu. Druga to efektywność wyszukiwania, mierząca, jak dobrze modele wykorzystują narzędzia internetowe do pobrania dokładnych informacji. Trzecia kategoria to ukorzenienie, czyli czy model pozostaje wierny dostarczonemu dokumentowi bez dodawania fałszywych szczegółów. Czwarta dotyczy zrozumienia multimodalnego – na przykład prawidłowego odczytywania wykresów, diagramów i obrazów.
Najtrudniejszą sferą dla wszystkich modeli okazały się zadania multimodalne, gdzie dokładność z reguły spadała poniżej 50 procent. Przerobienie np. zdjęcia tabeli na arkusz i potem wykorzystanie takiego dokumentu niesie tym samym za sobą duże ryzyka dla użytkowników.
Pełne wyniki badania w języku angielskim znaleźć można pod tym adresem.