Игнорируя «закон масштабирования»: представлена крупная импульсная модель SpikingBrain-1.0, вдохновленная мозгом
Китайские исследователи создали новую архитектуру больших моделей на основе импульсных нейронов, которая демонстрирует экспоненциальный прирост эффективности при обработке сверхдлинных последовательностей и требует на 98% меньше данных для обучения
Короткое резюме
Команда исследователей под руководством Ли Гоци и Сюй Бо из Института автоматизации Китайской академии наук в сотрудничестве с компанией MetaX представила крупную импульсную модель SpikingBrain-1.0 («Мгновенное Понимание-1.0»). Эта модель, вдохновлённая работой мозга, предлагает альтернативу доминирующей архитектуре Transformer и, как утверждается, не подчиняется «закону масштабирования», согласно которому для повышения интеллекта модели необходимо увеличивать её размер, объём данных и вычислительные ресурсы. SpikingBrain-1.0 была полностью обучена и протестирована на платформе с отечественными GPU.
Ключевым нововведением является переход от «экзогенной сложности» (простая точка-нейрон в Transformer) к «эндогенной сложности», где сложность возникает внутри самих импульсных нейронов, имитирующих внутренние механизмы биологических нейронов. Это решает фундаментальную проблему Transformer: квадратичный рост вычислительных затрат и линейный рост потребления видеопамяти с увеличением длины последовательности. Теоретически команда установила связь между эндогенной динамикой импульсных нейронов и моделями линейного внимания, показав, что последние являются упрощённой формой дендритных вычислений.
Модель демонстрирует прорывные показатели: для предварительного обучения требуется всего ~2% данных от стандартных больших моделей для достижения сопоставимой производительности в задачах понимания языка и логического вывода. Эффективность генерации при сверхдлинных последовательностях увеличивается на порядки: при длине в 1 млн токенов время до генерации первого токена (TTFT) ускоряется в 26.5 раз, а при 4 млн токенов — более чем в 100 раз по сравнению с Transformer. Это открывает потенциал для применения в анализе юридических/медицинских документов, анализе ДНК и физике высоких энергий.
Новая архитектура
Импульсная модель SpikingBrain-1.0 как альтернатива Transformer, не следующая «закону масштабирования»
Эндогенная сложность
Сложность заложена в динамике импульсных нейронов, а не добавляется извне
Эффективность данных
Требует ~2% данных для предобучения для достижения результатов, сопоставимых с открытыми Transformer-моделями
Скорость вывода
Ускорение генерации в 26.5 раз (1M токенов) и >100 раз (4M токенов) по TTFT
Решение проблемы памяти
Линейная сложность по памяти решает проблему линейного роста потребления VRAM в Transformer
Практическая реализация
Полный цикл обучения и вывода на отечественных GPU, открытие моделей (7B и 76B параметров)
Текст сгенерирован с использованием ИИ