Расшифровать геном: как биоинформатика анализирует данные NGS

Автор:

Медицинский генетик

03.12.2025

4 мин.

Расшифровать геном с помощью технологии секвенирования нового поколения (NGS) — значит получить огромный объем информации о нашей ДНК. Однако после завершения работы секвенатора (прибора, который «читает» ДНК) мы получаем не готовую книгу жизни, а гигантский набор данных, состоящий из миллиардов коротких фрагментов генетического кода. Этот цифровой архив сам по себе не несет клинического смысла. Превратить этот хаос данных в понятный и полезный для врача отчет — основная задача биоинформатики. Это междисциплинарная область науки, которая использует вычислительные методы для анализа биологических данных. Именно биоинформатический анализ позволяет найти в геноме те самые значимые изменения, которые могут быть связаны с заболеваниями.

Весь процесс можно сравнить с восстановлением огромной энциклопедии, которую сначала разрезали на миллионы мелких клочков, а затем перемешали. Биоинформатика — это набор инструментов и методов, которые позволяют сначала проверить качество каждого клочка, затем собрать их в правильном порядке, сравнить с эталонной версией энциклопедии, найти опечатки и, наконец, понять, что эти опечатки означают.

Что такое сырые данные NGS и почему их нельзя прочитать напрямую

Результатом работы секвенатора являются так называемые сырые данные. Обычно они представлены в виде файлов формата FASTQ. Такой файл содержит миллионы (или миллиарды) коротких последовательностей ДНК, называемых «ридами» или «прочтениями». Каждый рид — это небольшой фрагмент вашей ДНК, который прибор смог прочитать за один раз. Важно понимать, что эти фрагменты не упорядочены и содержат перекрывающиеся участки. Кроме самой последовательности букв (A, T, G, C), для каждой буквы указывается показатель качества — Phred score. Это статистическая оценка уверенности прибора в том, что именно эта буква находится в данной позиции. Чем выше показатель, тем надежнее результат.

Прочитать эти данные напрямую и понять что-либо невозможно по нескольким причинам. Во-первых, их колоссальный объем — полный геном человека может занимать сотни гигабайт. Во-вторых, фрагментарность и отсутствие порядка. Без специальной обработки это просто бессмысленный набор букв, как если бы вам дали все слова из романа «Война и мир» в случайном порядке.

Основные этапы биоинформатического анализа: от хаоса к порядку

Чтобы превратить сырые данные в информацию, пригодную для клинической интерпретации, биоинформатики используют сложные вычислительные алгоритмы, объединенные в так называемые «аналитические конвейеры». Каждый этап этого процесса решает свою конкретную задачу и строго контролируется. Ниже представлены ключевые шаги анализа данных секвенирования нового поколения.

Контроль качества сырых данных. Это первый и один из самых важных этапов. Специальные программы проверяют качество каждого прочтения. Данные с низкими показателями качества (то есть те, в которых прибор не уверен) отбраковываются, а у оставшихся могут быть отрезаны «хвосты» с низким качеством. Этот этап гарантирует, что в дальнейший анализ попадут только надежные данные, что снижает риск ложных результатов. Это похоже на отбраковку бракованных деталей перед сборкой сложного механизма.
Выравнивание. На этом этапе все прошедшие контроль качества фрагменты ДНК сопоставляются с эталонным геномом человека (референсным геномом). Референсный геном — это общепринятая, усредненная последовательность ДНК, собранная учеными в рамках проекта «Геном человека». Процесс выравнивания похож на сборку гигантского пазла, где в качестве образца используется картинка на коробке. Специальные программы-выравниватели находят для каждого рида его уникальное место в геноме. Результат этого этапа — файл формата BAM, где все фрагменты выстроены в правильном порядке.
Поиск генетических вариантов. После того как геном пациента «собран» и выровнен относительно эталона, начинается самое интересное — поиск отличий. Этот процесс называется «поиском вариантов». Программа сравнивает последовательность ДНК пациента с референсной и отмечает все несовпадения: однонуклеотидные замены (SNP), небольшие вставки или выпадения участков ДНК (индели) и другие типы изменений. В результате формируется список всех генетических вариантов, обнаруженных у человека. У каждого из нас таких вариантов сотни тысяч, и подавляющее большинство из них — это просто часть нормальной человеческой изменчивости.
Аннотация вариантов. Полученный список вариантов сам по себе не несет информации. Задача следующего этапа — аннотации — придать им смысл. Каждый вариант проверяется по десяткам международных баз данных. Что это за вариант? В каком гене он находится? Какую функцию выполняет этот ген? Встречался ли этот вариант раньше у здоровых людей? Связан ли он с какими-либо заболеваниями по данным научных публикаций? Компьютерные программы предсказывают, насколько «агрессивно» данная замена может повлиять на функцию белка. Этот этап обогащает сухой список вариантов бесценной биологической и медицинской информацией, отсеивая заведомо безвредные изменения и выделяя те, которые требуют пристального внимания врача-генетика.

Классификация генетических вариантов: от шума до клинического значения

После аннотации каждый потенциально значимый вариант должен быть классифицирован в соответствии с его клиническим значением. Это стандартизированный процесс, который помогает врачам и пациентам понять, насколько серьезным может быть обнаруженное изменение в ДНК. Для этого используется международная пятиуровневая система классификации.

Ниже представлена таблица с описанием каждой из пяти категорий.

Класс варианта	Значение	Что это означает для пациента
Класс 5: Патогенный	Вызывает заболевание	Имеются убедительные доказательства, что этот вариант является причиной заболевания.
Класс 4: Вероятно патогенный	С высокой вероятностью вызывает заболевание	Большинство данных указывает на патогенность варианта, но для полной уверенности не хватает некоторых доказательств.
Класс 3: Вариант с неясной клинической значимостью (VUS)	Неизвестно	На сегодняшний день недостаточно данных, чтобы отнести вариант к патогенным или доброкачественным. Это не диагноз, а указание на необходимость дальнейшего наблюдения или исследований.
Класс 2: Вероятно доброкачественный	С высокой вероятностью не вызывает заболевание	Большинство данных указывает на то, что вариант является безвредной особенностью генома.
Класс 1: Доброкачественный	Не вызывает заболевание	Имеются убедительные доказательства, что этот вариант не связан с развитием заболевания и является частью нормальной генетической вариативности.

Роль врача-генетика: почему компьютер не может поставить диагноз

Важно понимать, что биоинформатический анализ — это мощнейший инструмент, но не замена врачу. Результатом всей сложной вычислительной работы является отчет со списком аннотированных и классифицированных генетических вариантов. Однако окончательное заключение делает только врач-генетик. Компьютер не видит пациента, не знает его симптомов, истории болезни и семейного анамнеза.

Именно врач сопоставляет данные, полученные в результате анализа NGS, с конкретной клинической картиной. Он оценивает, объясняет ли найденный вариант симптомы пациента, определяет его значимость в контексте всей медицинской информации. В некоторых случаях, особенно с вариантами неясной значимости (VUS), может потребоваться дополнительное обследование пациента или его родственников. Таким образом, биоинформатика предоставляет данные высочайшего качества, а врач-генетик превращает их в точный диагноз и план дальнейших действий.

Список литературы

Гинтер Е.К. Медицинская генетика: учебник. — М.: Медицина, 2003. — 448 с.
Пузырев В.П., Фрейдин М.Б. Генетический взгляд на феномен сочетанной патологии у человека // Вестник Российской академии медицинских наук. — 2017. — Т. 72 (6). — С. 416–425.
Richards S., Aziz N., Bale S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology // Genetics in Medicine. — 2015. — Vol. 17 (5). — P. 405-424.
Pevsner J. Bioinformatics and Functional Genomics. — 3rd ed. — Wiley-Blackwell, 2015. — 992 p.
Клинические рекомендации «Муковисцидоз». Министерство здравоохранения Российской Федерации. 2021.

Читайте также по теме:

← Пройти NGS-исследование: все этапы от сдачи анализа до получения ответа

Гарантировать точность NGS-теста: правила подготовки для пациента →

Вернуться к общему обзору темы:

Секвенирование нового поколения для точной генетической диагностики