Specjaliści od AI powinni uczyć się polskiego. Zaskakujące wyniki badań

Naukowcy z University of Maryland oraz Microsoftu udowodnili, że język polski jest znacznie lepszy od angielskiego.

Paweł Maretycz (Maniiiek)
0
Udostępnij na fb
Udostępnij na X
Specjaliści od AI powinni uczyć się polskiego. Zaskakujące wyniki badań

Przynajmniej jeśli chodzi o pisanie promptów dla AI. Rzecz jasna pod warunkiem, że sama Sztuczna Inteligencja również korzysta z Polskiego. Zacznijmy jednak od procedury. Testom zostały poddane następujące modele językowe: OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5, Llama 3.1, Llama 3.3, oraz DeepSeek-R1, którym przygotowano niezwykle obszerne zapytania zawierające od 8 tysięcy do ponad 100 tysięcy tokenów.

Dalsza część tekstu pod wideo

Polski język najlepszy dla AI

Tu warto podkreślić, że pojedynczy token to najmniejsza część zdania rozpoznawalna przez AI. Zależnie od okoliczności może być on zarówno jednym znakiem, jak i jednym słowem. Przyjmuje się, że. w przypadku języków indoeuropejskich pojedynczy token to około 3-5 znaków. Oznacza to, że same prompty były bardzo mocno rozbudowane.

Następnie gotowe odpowiedzi zostały przeanalizowane pod kątem zrozumienia tematu przez AI, oraz jakości odpowiedzi. Następnie przebadano pod tym względem 26 języków. Efekty były... co najmniej zaskakujące. Otóż najwyższy wynik dokładności wynoszący 88% przypadł językowi polskiemu. I to mimo faktu, że w porównaniu do takiego angielskiego, który zajął dopiero szóste miejsce z wynikiem 83,9%, poziom szkolenia na naszym języku jest dość niski.

Zaskakujący jest natomiast wynik chińskiego: ten zajął czwarte miejsce, ale od końca zyskując dokładność na poziomie 62,1%. I to mimo faktu, że wykorzystano bardzo dużo treści w nim do szkolenia modeli językowych. 

Dlaczego polski jest najlepszy?

Polski jest uznawany za niezwykle trudny język. Nie chodzi tu jednak o łamańce językowe, jak gżegżółką w dżdżystym dniu wesoło kląskała, ani o odmianie przez przypadki. Nasz język na tle innych jest niezwykle wręcz precyzyjny. I to właśnie ta cecha jest szczególnie ceniona przez modele językowe. Dlaczego więc przeciętny użytkownik korzystający z ChatGPT uzyskuje lepsze wyniki, pytając go o coś po angielsku?

To skomplikowane. W dużym uproszeniu można powiedzieć, że modele językowe, z których korzystamy, tłumaczą nasze słowa na angielski i dopiero wtedy odpowiadają na zapytania. Jednak tak naprawdę proces ten polega na przenoszeniu tego do wektorów struktury semantycznej, które są porównywane do danych, z którymi AI najlepiej je kojarzy, a te w większości są w języku angielskim z powodu najszerszej bazy danych wykorzystanej do nauki. Na potrzeby badania ograniczono dostęp do tylko jednego, badanego języka.

Dany model musiałby natywnie korzystać z polskiego, aby uzyskać dobre wyniki. I chociaż obecnie to mija się z celem, to może kiedyś, w celu lepszej optymalizacji procesów AI o olbrzymich ilościach tokenów będzie mile widziana znajomość polskiego u twórców promptów.