Sprawdzili, które AI najbardziej zmyśla. Różnice są diametralne

Nie jest tajemnicą, że wszystkie modele AI do pewnego stopnia zmyślają, co jest określane mianem halucynacji. Który radzi sobie z tym najgorzej? Postanowiono to sprawdzić.

Damian Jaroszewski (NeR1o)
0
Udostępnij na fb
Udostępnij na X
Sprawdzili, które AI najbardziej zmyśla. Różnice są diametralne

Halucynacje sztucznej inteligencji to doskonale znany mechanizm. AI potrafi zmyślać lub przedstawiać błędne informacje i jest przy tym bardzo przekonująca. Firma Legal Guardian Digital postanowiła sprawdzić, które modele radzą sobie pod tym względem najlepiej i najgorzej.

Dalsza część tekstu pod wideo

AI zmyśla na potęgę

Wyniki okazały się zaskakujące. Okazało się, że najczęściej zmyśla Google Gemini. Model ten podawał błędne informacje w aż 32 proc. przypadków, czyli przy co trzecim zapytaniu. NIeco lepiej radzą sobie ChaGPT (30 proc.), Kimi i Microsoft Copilot (27 proc.) oraz Meta AI (25 proc.). Zdecydowanie najlepiej wypadają Perplexity (13 proc.), DeepSeek (14 proc.) oraz Grok (15 proc.).

Zbadano też spójność i jakość odpowiedzi dużych modeli językowych. Tutaj najlepiej poradził sobie Kimi (4,3 na 5 pkt.). Na kolejnych miejscach znalazły się: Google Gemini (4), Microsoft Copilot (4) oraz ChatGPT (4). Najgorzej wypadły: Meta AI (3,4) oraz Perplexity, Grok, Claude i DeepSeek (wszystkie po 3,5 pkt). 

W ogólnym zestawieniu, w którym wzięto pod uwagę procent halucynacji, spójność odpowiedzi, niezawodność działania oraz oceny użytkowników, najlepszym AI okazało się Perplexity z wynikiem 85 pkt na 100 możliwych. Pełne zestawienie to:

  1. Perplexity - 85/100
  2. Grok - 79/100
  3. DeepSeek - 76/100
  4. Kimi - 60/100
  5. Microsoft Copilot - 53/100
  6. ChatGPT - 50/100
  7. Claude - 45/100
  8. Google Gemini - 41/100
  9. Meta AI - 37/100