Свыше 70% функций генов неизвестны? Ученые «ставят на учет» микроорганизмы
Китайско-американская команда разработала ИИ-модель FUGAsseM, которая предсказывает функции белков в микробиоме, не полагаясь на сходство последовательностей, и открыла десятки тысяч новых белковых семейств
Скриншот страницы газеты
Short Summary
Исследователи из Китайской академии сельскохозяйственных наук и Гарвардского университета разработали ИИ-модель FUGAsseM, чтобы пролить свет на «тёмную материю» микробиома — свыше 70% генов кишечных бактерий, чьи функции остаются загадкой. В отличие от традиционных методов, основанных на сходстве генетических последовательностей, новая модель использует «доказательный» подход, анализируя многомерные сети данных, включая совместную экспрессию генов (транскриптомика), их физическую близость в геноме и сходство структур белков, чтобы выявлять гены, работающие вместе, подобно рабочим на одной фабрике.
Обучаясь на обширных данных метагеномики и метатранскриптомики, собранных за год наблюдений за 109 людьми, FUGAsseM продемонстрировала выдающуюся точность: 95% при воспроизведении известных функций и около 80% при предсказании функций ранее неизвестных генов на независимых экспериментальных данных. Применение модели к микробиому человека позволило предсказать функции для 440 000 генетических семейств (82,3% из них ранее не были охарактеризованы) и обнаружить 30 000 совершенно новых белковых семейств, включая 6000 семейств, не имеющих никакого сходства с известными белками.
Этот прорыв имеет далеко идущие последствия. Модель уже выявила потенциально важные функции, например, новые системы защиты от бактериофагов у пробиотической бактерии Faecalibacterium prausnitzii, а также множество новых генов, участвующих в метаболизме железа, аммиака и детоксикации. Будучи универсальным инструментом, FUGAsseM открывает путь к глубокому функциональному анализу не только кишечного, но и почвенного, экологического и сельскохозяйственного микробиома, что может революционизировать наше понимание взаимодействий микроорганизмов с хозяином и окружающей средой.
Смена парадигмы в предсказании функций
Модель использует не сходство последовательностей, а анализ совместной экспрессии и других «контекстуальных» данных для логического вывода о функции генов
Высокая точность на «тёмной материи»
Модель достигла ~80% точности при предсказании функций ранее неизвестных генов на независимых экспериментальных данных
Открытие тысяч новых белковых семейств
Выявлено 30 000 новых белковых семейств, включая 6000 полностью уникальных, не имеющих аналогов в существующих базах данных
Практические открытия в микробиоме
Обнаружены потенциально важные гены, например, отвечающие за защиту ключевых пробиотиков от вирусов и за метаболизм важных соединений
Text generated using AI
Источник:
Журнал медицинских наук
