Зачем мы вообще читаем геномы
Когда в 2003 году завершили чтение первого человеческого генома, в публичных обсуждениях звучало: теперь мы поймём всё. Найдём гены болезней, поймём биологию, вылечим всё, что лечится только через генетику. Полтора десятилетия спустя картина оказалась богаче и сложнее.
Геном — это не «инструкция к организму», как часто говорят, а скорее исторический архив: накопленный эволюцией набор вариантов, многие из которых работают в контексте, многие — компенсируют друг друга, многие — нейтральны или почти нейтральны.
Скрытое разнообразие
За последние 10 лет благодаря крупным консорциумам (1000 Genomes, gnomAD, All of Us) мы узнали, насколько генетически разнообразен человек. У каждого из нас 4–5 миллионов вариантов отличаются от референсного генома. Большая часть — нейтральна или почти нейтральна, но среди них прячутся клинически значимые.
Стандартный набор:
- ~ 5 000 redkih variantov — частота в популяции < 1%.
- ~ 100 предположительно вредных вариантов в важных генах.
- 1–2 точечные мутации, де факто несовместимые с жизнью, в гомозиготном состоянии.
- 30–50 рецессивных вариантов в носительском состоянии.
Большинство этих вариантов никогда не дают о себе знать. Но они формируют то, что называется генетическим фоном — компонент, на котором развиваются и реализуются заболевания.
Полигенные риски
Ключевое открытие: большинство распространённых заболеваний — полигенные. ИБС, диабет 2 типа, шизофрения, остеопороз, тревожные расстройства — каждое из них определяется сотнями и тысячами генетических вариантов, каждый из которых вкладывает небольшой эффект.
Polygenic risk score (PRS) агрегирует эти эффекты в одно число — суммарный генетический риск. Сегодня PRS уже применяются в исследованиях, отдельные — в клинике (риск ИБС, риск некоторых видов рака).
Что дальше с PRS
Главный вопрос — как использовать в клинике. PRS не дают диагноза, они дают вероятностную оценку. Для пациента это сложнее понять, чем «у вас мутация». Но информация полезна для индивидуализации скрининга и профилактики.
Некодирующий геном
~98% генома — это не белок-кодирующие гены. Это регуляторные элементы (промоторы, энхансеры, инсуляторы), некодирующие РНК, повторы, псевдогены. Гигантская часть биологии, которую мы только начинаем понимать.
Многие болезни вызваны мутациями именно в этих регионах. Например, гены talassemii часто имеют регуляторные мутации; аутизм ассоциирован с вариантами в энхансерах; раки часто включают перестановки в регуляторных регионах.
Когда мы делаем WGS вместо WES, мы ловим клинически значимый вариант чаще на 10–20%. Эта добавка — почти всегда регуляторные мутации, которые WES не видит.
Эпигеном
Помимо самой последовательности ДНК, важно метилирование — химическая модификация цитозинов, влияющая на экспрессию генов. Метилом тканеспецифичен и сильно меняется с возрастом и под влиянием среды.
Это второй слой генетической регуляции, и мы постепенно учимся его «читать». Эпигенетические часы (Horvath, GrimAge) позволяют оценить биологический возраст пациента и предсказывать смертность точнее, чем хронологический возраст.
Микробиом как «второй геном»
Каждый из нас несёт ~10¹⁴ микробных клеток — это в 10 раз больше, чем наших собственных. Микробиом формирует ещё один слой влияния на здоровье — на иммунитет, нейрохимию, метаболизм, риск онкологии.
NGS позволяет картировать микробиом без культивирования. И мы видим: состав микробиоты связан с десятками заболеваний — от воспалительных заболеваний кишечника до болезни Альцгеймера.
Что ещё узнаем
Сегодня мы понимаем, наверное, 10–20% того, что в нашем геноме «закодировано» с точки зрения здоровья. Остальное — белые пятна, которые будут заполняться в течение следующих десятилетий.
Главные направления:
- Long-read данные для понимания сложных регионов.
- Single-cell и spatial для тканевого разрешения.
- Multi-omic интеграция — геном + транскриптом + протеом + метаболом.
- Большие популяционные когорты — миллионы участников с глубокой фенотипизацией.
- ИИ-методы анализа — поиск тонких паттернов, недоступных классической статистике.