Call center worker uses AI technology on laptop to provide quick replies to common customer queries, close up. Customer service agent generates automated responses to clients using AI tech on notebook

Онлайн платформите, които подреждат най-новите големи езикови модели (LLM), се използват масово от компании, търсещи „най-добрия“ модел за автоматизация, анализ или обслужване на клиенти. Но ново изследване на MIT показва, че тези класации може да са далеч по-крехки, отколкото изглеждат — понякога дори два грешни гласа могат да обърнат цялата подредба.

Когато няколко клика променят „най-добрия модел“

Платформите за LLM класиране обикновено работят чрез сравнения: потребителят задава един и същ въпрос на два модела и избира кой отговор е по-добър. След това хиляди подобни гласове се агрегирани в обща класация.

MIT изследователите обаче откриват нещо тревожно:

  • Премахването на само два гласа от над 57 000 може да промени кой модел е №1.
  • В друга платформа, използваща експерти и по-качествени промптове, премахването на 3% от данните е достатъчно, за да се обърне класацията.

Това означава, че „най-добрият модел“ може да е продукт на шум, грешки или случайни кликове — а не на реално по-добро представяне.

Както отбелязва проф. Тамара Бродерик от MIT:

„Ако топ моделът зависи от два или три гласа сред десетки хиляди, не можем да приемем, че той ще се представя най-добре и в реални условия.“

Метод за откриване на „влиятелните“ гласове

За да анализират проблема, учените разработват бърз метод, който:

  • открива кои конкретни гласове влияят най-силно върху класацията
  • позволява на потребителите да ги премахнат и да проверят дали резултатът се променя
  • избягва нуждата от изчисляване на милиарди комбинации

Това е особено важно, защото ръчното тестване е практически невъзможно — само 0.1% от данните в една платформа означават над 10194 възможни комбинации за проверка.

Проблемът: човешка грешка и шум

При анализа се оказва, че много от „влиятелните“ гласове вероятно са резултат от:

  • погрешни кликове
  • липса of внимание
  • неяснота в задачата
  • субективни предпочитания

Именно тези случайни фактори могат да определят кой модел ще бъде обявен за „най-добър“.

Какво може да се подобри

Изследователите предлагат няколко решения:

  • събиране на по-детайлна обратна връзка (например увереност в избора)
  • използване на медиатори или експерти за проверка на съмнителни гласове
  • по-строги методи за оценка на стабилността на класациите

Те подчертават, че компаниите трябва да бъдат внимателни, когато вземат решения, базирани на подобни платформи — особено когато става дума за внедряване на LLM в критични бизнес процеси.

По-широкият контекст

Работата на MIT показва колко зависими са AI системите от човешките предпочитания — и колко крехки могат да бъдат методите, които използваме, за да ги оценяваме. Както отбелязва проф. Джесика Хълман от Northwestern University:

„Това изследване показва колко силно зависим от данните може да бъде един модел — и колко лесно малък брой предпочитания може да промени поведението му.“

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *