News

00:00
Журнал медицинских наук - 医学科学报 (Онлайн-версия)
Журнал медицинских наук - 医学科学报 (Онла...
...
News
19:43, 10 Oct

Игнорируя «закон масштабирования»: представлена крупная импульсная модель SpikingBrain-1.0, вдохновленная мозгом

Китайские исследователи создали новую архитектуру больших моделей на основе импульсных нейронов, которая демонстрирует экспоненциальный прирост эффективности при обработке сверхдлинных последовательностей и требует на 98% меньше данных для обучения

科学网—无视“规模法则”!类脑脉冲大模型“瞬悉1.0”问世
medical.sciencenet.cn
medical.sciencenet.cn

Короткое резюме

Команда исследователей под руководством Ли Гоци и Сюй Бо из Института автоматизации Китайской академии наук в сотрудничестве с компанией MetaX представила крупную импульсную модель SpikingBrain-1.0 («Мгновенное Понимание-1.0»). Эта модель, вдохновлённая работой мозга, предлагает альтернативу доминирующей архитектуре Transformer и, как утверждается, не подчиняется «закону масштабирования», согласно которому для повышения интеллекта модели необходимо увеличивать её размер, объём данных и вычислительные ресурсы. SpikingBrain-1.0 была полностью обучена и протестирована на платформе с отечественными GPU.

Ключевым нововведением является переход от «экзогенной сложности» (простая точка-нейрон в Transformer) к «эндогенной сложности», где сложность возникает внутри самих импульсных нейронов, имитирующих внутренние механизмы биологических нейронов. Это решает фундаментальную проблему Transformer: квадратичный рост вычислительных затрат и линейный рост потребления видеопамяти с увеличением длины последовательности. Теоретически команда установила связь между эндогенной динамикой импульсных нейронов и моделями линейного внимания, показав, что последние являются упрощённой формой дендритных вычислений.

Модель демонстрирует прорывные показатели: для предварительного обучения требуется всего ~2% данных от стандартных больших моделей для достижения сопоставимой производительности в задачах понимания языка и логического вывода. Эффективность генерации при сверхдлинных последовательностях увеличивается на порядки: при длине в 1 млн токенов время до генерации первого токена (TTFT) ускоряется в 26.5 раз, а при 4 млн токенов — более чем в 100 раз по сравнению с Transformer. Это открывает потенциал для применения в анализе юридических/медицинских документов, анализе ДНК и физике высоких энергий.

Ключевые выводы
Новая архитектура

Импульсная модель SpikingBrain-1.0 как альтернатива Transformer, не следующая «закону масштабирования»

Эндогенная сложность

Сложность заложена в динамике импульсных нейронов, а не добавляется извне

Эффективность данных

Требует ~2% данных для предобучения для достижения результатов, сопоставимых с открытыми Transformer-моделями

Скорость вывода

Ускорение генерации в 26.5 раз (1M токенов) и >100 раз (4M токенов) по TTFT

Решение проблемы памяти

Линейная сложность по памяти решает проблему линейного роста потребления VRAM в Transformer

Практическая реализация

Полный цикл обучения и вывода на отечественных GPU, открытие моделей (7B и 76B параметров)

Текст сгенерирован с использованием ИИ

импульсная нейронная сеть (SNN), большая модель, архитектура Transformer, эндогенная сложность, сверхдлинные последовательности, эффективность вычислений, Институт автоматизации КАН
1

Recommendations on the topic

Comments

Golos Nauki Logo
Home page
Support Project
Sections
Быстрый доступ
  • Author's interview
  • Video Abstracts
Sponsor
* is not an advertisement
Presentation
Information

    Phone: 8 (800) 350 17-24email: office@golos-nauki.ru
    Sign Up
    Журнал медицинских наук - 医学科学报 (Онлайн-версия)News Feed
    Other News