Екип от MIT CSAIL и партньорски институции представи метод, който може да промени начина, по който се създават големи модели с изкуствен интелект. Вместо да се обучава огромен модел и едва след това да се „орязва“, новата техника CompreSSM позволява компресиране на архитектурата още по време на самото обучение, спестявайки време, енергия и значителни изчислителни ресурси.
Какво представлява CompreSSM
Методът е насочен към т.нар. state-space модели – архитектури, използвани в обработка на език, аудио, роботика и други динамични задачи. Изследователите прилагат инструменти от теорията на управлението, за да определят кои вътрешни компоненти на модела имат реален принос и кои са излишни.
Тази оценка се прави чрез Hankel singular values – математическа мярка, която показва значимостта на всяко вътрешно състояние. Оказва се, че още след около 10% от обучението може надеждно да се определи кои части на модела са важни. Останалите могат да бъдат премахнати, а последните 90% от обучението протичат значително по-бързо.
„Моделът буквално става по-компактен, докато се учи“, обяснява водещият автор Макрам Шахин от MIT CSAIL.
Резултатите: по-малки модели, почти без загуба на точност
При тестове за класификация на изображения компресираните модели запазват почти същата точност, но се обучават до 1.5 пъти по-бързо.
- Модел, сведен до една четвърт от първоначалния си размер, достига 85.7% точност на CIFAR-10 – значително по-добър резултат от модел, който е бил малък от самото начало.
- При архитектурата Mamba е отчетено 4-кратно ускорение, като 128-мерен модел е сведен до около 12 измерения без сериозна загуба на качество.
Какво отличава CompreSSM от други подходи
Традиционните методи за „подрязване“ на модели изискват пълно обучение на голям модел, преди да се премахнат параметри – което не спестява ресурси. Друг популярен подход – knowledge distillation – налага обучение на два модела (учител и ученик), което удвоява разходите.
CompreSSM избягва и двата недостатъка, защото взема информирани решения в движение, докато моделът се обучава.
В директни сравнения:
- срещу Hankel nuclear norm regularization – CompreSSM е над 40 пъти по-бърз и по-точен;
- срещу distillation – компресираните модели запазват висока точност дори при много малки размери, докато дестилираните модели губят качество.
Теоретична основа и практическа гъвкавост
Екипът доказва математически, че важността на отделните състояния се променя плавно по време на обучението (благодарение на приложение на теоремата на Вайл), което гарантира стабилност на ранните оценки.
Методът включва и „предпазна мрежа“ – ако компресията доведе до неочакван спад, може да се върне към предишна версия на модела.
CompreSSM работи най-добре при многоизходни и многоизходни (MIMO) архитектури, където размерът на вътрешното състояние е силно свързан с производителността. При по-прости модели ефектът е по-умерен.
Поглед напред
Изследователите вече разширяват метода към времеви и входно-зависими системи, включително Mamba, и планират да го приложат към линейно внимание – област, която се разглежда като алтернатива на традиционните трансформъри.
Работата ще бъде представена на International Conference on Learning Representations (ICLR) 2026 и е подкрепена от Max Planck ETH Center for Learning Systems, Hector Foundation, Boeing и U.S. Office of Naval Research.
