Проучване на MIT: Платформите за класиране на LLM модели може да са сериозно ненадеждни

Онлайн платформите, които подреждат най-новите големи езикови модели (LLM), се използват масово от компании, търсещи „най-добрия“ модел за автоматизация, анализ или обслужване на клиенти. Но ново изследване на MIT показва, че тези класации може да са далеч по-крехки, отколкото изглеждат — понякога дори два грешни гласа могат да обърнат цялата подредба.

Когато няколко клика променят „най-добрия модел“

Платформите за LLM класиране обикновено работят чрез сравнения: потребителят задава един и същ въпрос на два модела и избира кой отговор е по-добър. След това хиляди подобни гласове се агрегирани в обща класация.

MIT изследователите обаче откриват нещо тревожно:

Премахването на само два гласа от над 57 000 може да промени кой модел е №1.
В друга платформа, използваща експерти и по-качествени промптове, премахването на 3% от данните е достатъчно, за да се обърне класацията.

Това означава, че „най-добрият модел“ може да е продукт на шум, грешки или случайни кликове — а не на реално по-добро представяне.

Както отбелязва проф. Тамара Бродерик от MIT:

„Ако топ моделът зависи от два или три гласа сред десетки хиляди, не можем да приемем, че той ще се представя най-добре и в реални условия.“

Метод за откриване на „влиятелните“ гласове

За да анализират проблема, учените разработват бърз метод, който:

открива кои конкретни гласове влияят най-силно върху класацията
позволява на потребителите да ги премахнат и да проверят дали резултатът се променя
избягва нуждата от изчисляване на милиарди комбинации

Това е особено важно, защото ръчното тестване е практически невъзможно — само 0.1% от данните в една платформа означават над 10194 възможни комбинации за проверка.

Проблемът: човешка грешка и шум

При анализа се оказва, че много от „влиятелните“ гласове вероятно са резултат от:

погрешни кликове
липса of внимание
неяснота в задачата
субективни предпочитания

Именно тези случайни фактори могат да определят кой модел ще бъде обявен за „най-добър“.

Какво може да се подобри

Изследователите предлагат няколко решения:

събиране на по-детайлна обратна връзка (например увереност в избора)
използване на медиатори или експерти за проверка на съмнителни гласове
по-строги методи за оценка на стабилността на класациите

Те подчертават, че компаниите трябва да бъдат внимателни, когато вземат решения, базирани на подобни платформи — особено когато става дума за внедряване на LLM в критични бизнес процеси.

По-широкият контекст

Работата на MIT показва колко зависими са AI системите от човешките предпочитания — и колко крехки могат да бъдат методите, които използваме, за да ги оценяваме. Както отбелязва проф. Джесика Хълман от Northwestern University:

„Това изследване показва колко силно зависим от данните може да бъде един модел — и колко лесно малък брой предпочитания може да промени поведението му.“

Проучване на MIT: Платформите за класиране на LLM модели може да са сериозно ненадеждни

ByИван Стоянов

Когато няколко клика променят „най-добрия модел“

Метод за откриване на „влиятелните“ гласове

Проблемът: човешка грешка и шум

Какво може да се подобри

По-широкият контекст

Свързани

В чужбина за Великден с 50% отстъпка за Travel Pass роуминг пакети от Vivacom

HONOR показа танцуващ хуманоиден робот на MWC 2026

Как да изберем климатици за дома и офиса?

Вашият коментар