Семантический подход позволяет языковой модели Evo создавать функциональные …

Ирина Алексеева Группа исследователей из США представила концепцию «семантического проектирования» искусственных геномов. Она основана на использовании Evo — геномной языковой модели, обученной на миллиардах пар оснований прокариотических геномов. В геномах бактерий гены с родственными функциями часто располагаются рядом, формируя опероны и устойчивые функциональные кластеры. Если модель способна улавливать такую «геномную семантику», то, используя короткую подсказку из реального геномного контекста, она может генерировать новые последовательности, функционально связанные с этим контекстом, но не обязанные быть похожими на природные. С помощью такого «автодополнения» последовательностей авторы сгенерировали токсины, антитоксины, анти-CRISPR белки и РНК-антитоксины — то есть белки и нуклеиновые кислоты, обладающие активностью, но не имеющие выраженного сходства с природными последовательностями. Для начала авторы проверили способность Evo к автодополнению бактериальных генов, то есть давали только фрагмент высококонсервативного гена и оценивали, может ли модель правильно его продолжить. В анализ включили три версии модели, из них Evo 1.5 продемонстрировала наиболее высокую производительность. Например, получая на вход всего 30% последовательности, модель восстанавливала сигма-фактор РНК-полимеразы Escherichia coli (rpoS) c 85%-ной достоверностью. Также Evo 1.5 продемонстрировала способность достраивать гены внутри целых оперонов, учитывая направление транскрипции. Анализ энтропии показал, что модель не запоминает конкретные последовательности, а генерирует их заново, сохраняя ключевые аминокислоты, но варьируя нуклеотиды, подобно естественной эволюции. Далее ученые перешли к полноценному функциональному дизайну и с помощью подсказок из геномного контекста пытались создавать многокомпонентные системы. Для моделирования они выбрали системы токсин-антитоксин типа II, играющие роль в защите от бактериофагов. Сначала авторы генерировали токсичные белки, затем тестировали их способность ингибировать рост бактерий. Один из вариантов, EvoRelE1, продемонстрировал выраженную токсичность — он снижал выживаемость бактерий на 70% — и умеренное сходство с с природным RelE. Затем его последовательность использовали в качестве входных данных, чтобы модель создала подходящие антитоксины. Из набора сгенерированных последовательностей половина оказалась функциональной, а лучшие варианты полностью восстанавливали рост клеток. Некоторые антитоксины нейтрализовали сразу несколько природных токсинов, хотя сами имели низкое сходство с природными последовательностями. Это указывает на способность модели извлекать скрытые принципы взаимодействий белков, не ограниченные существующими природными шаблонами. Аналогичный подход применили к системам типа III, где для нейтрализации токсина используется не белок, а повторяющаяся РНК. Среди кандидатов нашли рабочий РНК-антитоксин EvoAT6, подавляющий токсин ToxN и имеющий лишь умеренное сходство с последовательностью ToxI — РНК-антитоксина Bacillus multifaciens. Более того, Evo создала полностью новый токсин EvoT1, не похожий на существующие в природе. Используя контексты природных анти-CRISPR оперонов — фаговых систем защиты от иммунитета бактерий, — модель создала большую библиотеку кандидатных анти-CRISPR белков (Acr). Авторы оценили их потенциал с помощью алгоритма машинного обучения PaCRISPR, который классифицировал многие последовательности как вероятные Acr. Затем их тестировали в культурах E. coli. В результате 17% последовательностей подавляли работу Cas9, причем пять из них обеспечивали выраженную защиту как в жидкой культуре, так и при фаговой инфекции. Два белка, EvoAcr1 и EvoAcr2, не были схожи с какими-либо природными белками. EvoAcr3–5 также были эффективны, но принадлежали к существующим классам белков, включая те, что ранее не были связаны с анти-CRISPR активностью. В завершение работы авторы создали SynGenome — базу данных искусственных геномов, содержащую 120 миллиардов пар оснований синтетической ДНК. В качестве геномных подсказок модель опиралась на более чем 1,7 млн природных бактериальных и фаговых генов. Анализ этой базы показал, что сгенерированные открытые рамки считывания (ORF) по длине, структуре и доменной архитектуре напоминают природные, но при этом около 20% последовательностей формируют кластеры, отсутствующие в природном семантическом пространстве геномов. SynGenome также воспроизводит естественные ассоциации доменов и может подсказать функцию неохарактеризованных белков. База данных находится в открытом доступе . Таким образом, что языковая модель, обученная на прокариотических геномах, способна создавать новые функциональные молекулы, основываясь исключительно на геномном контексте, которое в природе отражает функциональные связи. Полученные белки и РНК — токсины, антитоксины, анти-CRISPR-системы — обладают биологической активностью, при этом многие из них принципиально новы и не имеют явного сходства с известными белками. Этот подход открывает возможность быстрого генерирования стартовых вариантов для дальнейшей инженерии, поиска новых биологических инструментов и расширения функционального пространства генов. Источник Merchant A., et. al. Semantic design of functional de novo genes from a genomic language model. // Nature (2025), published online 19 November 2025. DOI: 10.1038/s41586-025-09749-7 Source: https://pcr.news/novosti/semanticheskiy-podkhod-pozvolyaet-yazykovoy-modeli-evo-sozdavat-funktsionalnye-geny-de-novo/