Sprawdzili, które AI najbardziej zmyśla. Różnice są diametralne
Nie jest tajemnicą, że wszystkie modele AI do pewnego stopnia zmyślają, co jest określane mianem halucynacji. Który radzi sobie z tym najgorzej? Postanowiono to sprawdzić.
Halucynacje sztucznej inteligencji to doskonale znany mechanizm. AI potrafi zmyślać lub przedstawiać błędne informacje i jest przy tym bardzo przekonująca. Firma Legal Guardian Digital postanowiła sprawdzić, które modele radzą sobie pod tym względem najlepiej i najgorzej.
AI zmyśla na potęgę
Wyniki okazały się zaskakujące. Okazało się, że najczęściej zmyśla Google Gemini. Model ten podawał błędne informacje w aż 32 proc. przypadków, czyli przy co trzecim zapytaniu. NIeco lepiej radzą sobie ChaGPT (30 proc.), Kimi i Microsoft Copilot (27 proc.) oraz Meta AI (25 proc.). Zdecydowanie najlepiej wypadają Perplexity (13 proc.), DeepSeek (14 proc.) oraz Grok (15 proc.).
Zbadano też spójność i jakość odpowiedzi dużych modeli językowych. Tutaj najlepiej poradził sobie Kimi (4,3 na 5 pkt.). Na kolejnych miejscach znalazły się: Google Gemini (4), Microsoft Copilot (4) oraz ChatGPT (4). Najgorzej wypadły: Meta AI (3,4) oraz Perplexity, Grok, Claude i DeepSeek (wszystkie po 3,5 pkt).
W ogólnym zestawieniu, w którym wzięto pod uwagę procent halucynacji, spójność odpowiedzi, niezawodność działania oraz oceny użytkowników, najlepszym AI okazało się Perplexity z wynikiem 85 pkt na 100 możliwych. Pełne zestawienie to:
- Perplexity - 85/100
- Grok - 79/100
- DeepSeek - 76/100
- Kimi - 60/100
- Microsoft Copilot - 53/100
- ChatGPT - 50/100
- Claude - 45/100
- Google Gemini - 41/100
- Meta AI - 37/100