Бумът в областта на изкуствения интелект се основава на едно основно предположение: по-големите модели са по-мощни, а най-мощните модели печелят. Сега браншът е напът да разбере какво се случва, ако тази логика започне да се пропуква.
Нарастващите разходи вече принудиха потребителите да обърнат внимание на по-малките и по-евтини модели. Този ориентиран към цената подход при избора на модел е новост и все още не е ясно как ще се отрази на индустрията, но въздействието му вероятно ще бъде значително.
Една от прогнозите, формулирана най-ясно от съоснователя на Coinbase Брайън Армстронг, е, че това ще доведе до прехвърляне на по-голямата част от задачите към по-евтини алтернативи.
Търсенето на изкуствен интелект е почти безкрайно, но до 12 – 18 месеца 80% от работните натоварвания ще се изпълняват на модели, които са с 99% по-евтини“, написа Армстронг в X. „Останалите 20% от задачите все още ще се поемат от модели от най-ново поколение, където максималният „коефициент на интелигентност“ (IQ) е от критично значение.“
Трудно е да се преувеличи колко мащабна ще бъде тази промяна за AI индустрията, ако прогнозата на Армстронг се сбъдне.
Досега повечето компании за изкуствен интелект се състезаваха по качество, което означаваше по подразбиране да се използва най-напредналият наличен модел. Ако същите задачи могат да бъдат изпълнявани от по-евтини модели без компромис с качеството, това би променило из основи икономиката на изкуствения интелект. И което е от решаващо значение – голяма част от тези спестявания ще дойдат за сметка на големите лаборатории, нанасяйки финансов удар на OpenAI и Anthropic точно в момента, в който те се подготвят за първично публично предлагане (IPO).
Това е потенциално сеизмична промяна в индустрията, която повдига един фундаментален въпрос: Готови ли са компаниите масово да преминат към по-малки модели?
Първоначалните тестове показват, че когато системата е конфигурирана правилно, по-евтините модели могат да се включат в процеса без никаква загуба на качество. В неотдавнашен тест на правния AI инструмент Harvey компанията успя да намали разходите за извеждане на резултати (inference) цели 3 пъти, запазвайки същото ниво на качество. Тестът, проведен в партньорство с платформата Fireworks AI, комбинира възможностите на Claude Opus и GLM 5.1 на Fireworks, като системата превключваше към Opus само за най-сложните и тежки задачи. Резултатът – значително по-ниско натоварване на сървърите и сериозно свиване на общите разходи.
„Качеството е на първо място и в правната сфера винаги ще бъде така“, каза съоснователят на Harvey Гейб Перейра пред TechCrunch, визирайки специализираните услуги, които неговият стартъп предоставя.
Определението за качество обаче се развива – от простото използване на най-мощния модел за абсолютно всичко, към намирането на най-добрия модел, който дава правилния отговор по най-ефективния начин.“
Тази тенденция често се разглежда в контекста на битката между големите западни лаборатории и китайските модели, но подобен поглед пропуска по-важното. Истинското разделение не е между собствения софтуер и отворения код, а между големите и малките модели. Можете да спестите пари, като преминете от GPT-5.5 към V4 Flash на DeepSeek, но преминаването към GPT-5.4-mini върши същата работа.
В момента тече активна ценова война между облачните услуги за извеждане на данни на големите лаборатории и независимо хостваните модели. Но в контекста на големия сблъсък между „малки срещу големи“ всъщност няма значение кой точно вид малък модел ще надделее.
Всичко това може да изглежда очевидно – естествено е да не използваш повече изчислителна мощност от необходимото – но то противоречи на подхода „мащабирането на всяка цена“, който доминираше в индустрията до момента. Водени от амбицията за технологичен пробив, лабораториите се насочиха към обучението на възможно най-тежките откъм изчислителни ресурси модели, разширявайки границите на възможното в AI сектора. А тъй като цените бяха силно субсидирани от инвеститорите, клиентите нямаха никаква причина да избират нещо различно от най-напредналата и скъпа опция.
С покачването на цените за токени и затихването на субсидиите обаче, потребителите за първи път се сблъскват с реален натиск върху бюджетите си. Все още не знаем дали тези финансови ограничения действително ще насочат бизнеса към по-малките модели. Компаниите биха могли също толкова лесно да спестят средства, като просто намалят броя на заявките си или използват по-малък контекстен прозорец например.
Но ако се окаже, че повечето софтуерни интеграции работят също толкова добре и на по-малък модел, това би орязало сериозно очаквания бум в търсенето на изчислителна мощ за обработка на данни (inference) – и би повдигнало нови неудобни въпроси за това как изобщо да се оправдаят астрономическите разходи за обучение на следващия авангарден модел.
Източник: Economic.bg

