Менше чипів – більше можливостей: як DeepSeek переосмислює навчання ШІ

Самковський Роман05.01.20261 хв читання65

Поділитися

На ринку штучного інтелекту з’явився сигнал, який змушує переглянути правила гри. Компанія DeepSeek запропонувала архітектурний підхід до навчання мовних моделей, що обіцяє високу продуктивність без надмірних обчислювальних витрат.

У центрі уваги – метод Manifold-Constrained Hyper-Connections, або mHC. Його описали в науковій роботі, де автори стверджують: потужні великі мовні моделі можна будувати інакше, ніж це робили досі.

Це не перша спроба DeepSeek піти проти течії. Рік тому компанія вже здивувала індустрію моделлю R1. Вона продемонструвала рівень, порівнюваний з o1 від OpenAI, але була навчена з помітно меншими ресурсами.

Для багатьох західних гравців це стало холодним душем. З’ясувалося, що мільярдні бюджети та гігантські дата-центри – не єдиний шлях до конкурентного ШІ.

Нова публікація може мати ще серйозніші наслідки. Саме mHC розглядають як потенційну технологічну основу для майбутньої моделі R2. Її реліз відклали на тлі обмеженого доступу Китаю до передових ШІ-чипів і внутрішніх сумнівів щодо досягнення потрібної продуктивності.

Дослідження з’явилося у відкритому доступі на сервері препринтів arXiv. Це означає, що робота ще не пройшла рецензування, але вже активно обговорюється в професійному середовищі.

Проблема, на яку націлений mHC, добре відома розробникам LLM. Чим глибшою стає нейромережа, тим складніше зберігати якісний сигнал між її шарами. Інформація може слабшати, спотворюватися або перетворюватися на шум.

У DeepSeek описують це як пошук балансу між пластичністю та стабільністю. Модель має бути достатньо гнучкою для навчання, але не втрачати базову структуру.

В основі підходу лежить ідея гіперзв’язків, запропонована командою ByteDance у 2024 році. Вона передбачає розширені канали обміну даними між шарами нейромережі. Але разом із перевагами з’являються й проблеми – зокрема з пам’яттю та збереженням початкового сигналу.

Метод mHC вводить обмеження на ці гіперзв’язки. Інформаційна складність зберігається, а от вимоги до ресурсів знижуються. У результаті модель може залишатися глибокою й ефективною без надмірного навантаження на обчислювальну інфраструктуру.

Це більше, ніж технічна оптимізація. Як і у випадку з R1, підхід DeepSeek ставить під сумнів домінуючу логіку ШІ-перегонів, де перевагу мали лише ті, хто володіє найбільшими ресурсами.

Відкрита публікація mHC робить метод доступним не лише для корпорацій. Ним можуть скористатися й менші команди. І якщо саме він ляже в основу R2, індустрія отримає чіткий сигнал.

Майбутнє ШІ може визначатися не масштабом, а інженерною точністю.