Онлайн платформите, които подреждат най-новите големи езикови модели (LLM), се използват масово от компании, търсещи „най-добрия“ модел за автоматизация, анализ или обслужване на клиенти. Но ново изследване на MIT показва, че тези класации може да са далеч по-крехки, отколкото изглеждат — понякога дори два грешни гласа могат да обърнат цялата подредба.
Когато няколко клика променят „най-добрия модел“
Платформите за LLM класиране обикновено работят чрез сравнения: потребителят задава един и същ въпрос на два модела и избира кой отговор е по-добър. След това хиляди подобни гласове се агрегирани в обща класация.
MIT изследователите обаче откриват нещо тревожно:
- Премахването на само два гласа от над 57 000 може да промени кой модел е №1.
- В друга платформа, използваща експерти и по-качествени промптове, премахването на 3% от данните е достатъчно, за да се обърне класацията.
Това означава, че „най-добрият модел“ може да е продукт на шум, грешки или случайни кликове — а не на реално по-добро представяне.
Както отбелязва проф. Тамара Бродерик от MIT:
„Ако топ моделът зависи от два или три гласа сред десетки хиляди, не можем да приемем, че той ще се представя най-добре и в реални условия.“
Метод за откриване на „влиятелните“ гласове
За да анализират проблема, учените разработват бърз метод, който:
- открива кои конкретни гласове влияят най-силно върху класацията
- позволява на потребителите да ги премахнат и да проверят дали резултатът се променя
- избягва нуждата от изчисляване на милиарди комбинации
Това е особено важно, защото ръчното тестване е практически невъзможно — само 0.1% от данните в една платформа означават над 10194 възможни комбинации за проверка.
Проблемът: човешка грешка и шум
При анализа се оказва, че много от „влиятелните“ гласове вероятно са резултат от:
- погрешни кликове
- липса of внимание
- неяснота в задачата
- субективни предпочитания
Именно тези случайни фактори могат да определят кой модел ще бъде обявен за „най-добър“.
Какво може да се подобри
Изследователите предлагат няколко решения:
- събиране на по-детайлна обратна връзка (например увереност в избора)
- използване на медиатори или експерти за проверка на съмнителни гласове
- по-строги методи за оценка на стабилността на класациите
Те подчертават, че компаниите трябва да бъдат внимателни, когато вземат решения, базирани на подобни платформи — особено когато става дума за внедряване на LLM в критични бизнес процеси.
По-широкият контекст
Работата на MIT показва колко зависими са AI системите от човешките предпочитания — и колко крехки могат да бъдат методите, които използваме, за да ги оценяваме. Както отбелязва проф. Джесика Хълман от Northwestern University:
„Това изследване показва колко силно зависим от данните може да бъде един модел — и колко лесно малък брой предпочитания може да промени поведението му.“

