Расшифровать геном: как биоинформатика анализирует данные NGS




Старовникова Екатерина Александровна

Автор:

Старовникова Екатерина Александровна

Медицинский генетик

03.12.2025
4 мин.

Расшифровать геном с помощью технологии секвенирования нового поколения (NGS) — значит получить огромный объем информации о нашей ДНК. Однако после завершения работы секвенатора (прибора, который «читает» ДНК) мы получаем не готовую книгу жизни, а гигантский набор данных, состоящий из миллиардов коротких фрагментов генетического кода. Этот цифровой архив сам по себе не несет клинического смысла. Превратить этот хаос данных в понятный и полезный для врача отчет — основная задача биоинформатики. Это междисциплинарная область науки, которая использует вычислительные методы для анализа биологических данных. Именно биоинформатический анализ позволяет найти в геноме те самые значимые изменения, которые могут быть связаны с заболеваниями.

Весь процесс можно сравнить с восстановлением огромной энциклопедии, которую сначала разрезали на миллионы мелких клочков, а затем перемешали. Биоинформатика — это набор инструментов и методов, которые позволяют сначала проверить качество каждого клочка, затем собрать их в правильном порядке, сравнить с эталонной версией энциклопедии, найти опечатки и, наконец, понять, что эти опечатки означают.

Что такое сырые данные NGS и почему их нельзя прочитать напрямую

Результатом работы секвенатора являются так называемые сырые данные. Обычно они представлены в виде файлов формата FASTQ. Такой файл содержит миллионы (или миллиарды) коротких последовательностей ДНК, называемых «ридами» или «прочтениями». Каждый рид — это небольшой фрагмент вашей ДНК, который прибор смог прочитать за один раз. Важно понимать, что эти фрагменты не упорядочены и содержат перекрывающиеся участки. Кроме самой последовательности букв (A, T, G, C), для каждой буквы указывается показатель качества — Phred score. Это статистическая оценка уверенности прибора в том, что именно эта буква находится в данной позиции. Чем выше показатель, тем надежнее результат.

Прочитать эти данные напрямую и понять что-либо невозможно по нескольким причинам. Во-первых, их колоссальный объем — полный геном человека может занимать сотни гигабайт. Во-вторых, фрагментарность и отсутствие порядка. Без специальной обработки это просто бессмысленный набор букв, как если бы вам дали все слова из романа «Война и мир» в случайном порядке.

Основные этапы биоинформатического анализа: от хаоса к порядку

Чтобы превратить сырые данные в информацию, пригодную для клинической интерпретации, биоинформатики используют сложные вычислительные алгоритмы, объединенные в так называемые «аналитические конвейеры». Каждый этап этого процесса решает свою конкретную задачу и строго контролируется. Ниже представлены ключевые шаги анализа данных секвенирования нового поколения.

  • Контроль качества сырых данных. Это первый и один из самых важных этапов. Специальные программы проверяют качество каждого прочтения. Данные с низкими показателями качества (то есть те, в которых прибор не уверен) отбраковываются, а у оставшихся могут быть отрезаны «хвосты» с низким качеством. Этот этап гарантирует, что в дальнейший анализ попадут только надежные данные, что снижает риск ложных результатов. Это похоже на отбраковку бракованных деталей перед сборкой сложного механизма.
  • Выравнивание. На этом этапе все прошедшие контроль качества фрагменты ДНК сопоставляются с эталонным геномом человека (референсным геномом). Референсный геном — это общепринятая, усредненная последовательность ДНК, собранная учеными в рамках проекта «Геном человека». Процесс выравнивания похож на сборку гигантского пазла, где в качестве образца используется картинка на коробке. Специальные программы-выравниватели находят для каждого рида его уникальное место в геноме. Результат этого этапа — файл формата BAM, где все фрагменты выстроены в правильном порядке.
  • Поиск генетических вариантов. После того как геном пациента «собран» и выровнен относительно эталона, начинается самое интересное — поиск отличий. Этот процесс называется «поиском вариантов». Программа сравнивает последовательность ДНК пациента с референсной и отмечает все несовпадения: однонуклеотидные замены (SNP), небольшие вставки или выпадения участков ДНК (индели) и другие типы изменений. В результате формируется список всех генетических вариантов, обнаруженных у человека. У каждого из нас таких вариантов сотни тысяч, и подавляющее большинство из них — это просто часть нормальной человеческой изменчивости.
  • Аннотация вариантов. Полученный список вариантов сам по себе не несет информации. Задача следующего этапа — аннотации — придать им смысл. Каждый вариант проверяется по десяткам международных баз данных. Что это за вариант? В каком гене он находится? Какую функцию выполняет этот ген? Встречался ли этот вариант раньше у здоровых людей? Связан ли он с какими-либо заболеваниями по данным научных публикаций? Компьютерные программы предсказывают, насколько «агрессивно» данная замена может повлиять на функцию белка. Этот этап обогащает сухой список вариантов бесценной биологической и медицинской информацией, отсеивая заведомо безвредные изменения и выделяя те, которые требуют пристального внимания врача-генетика.

Классификация генетических вариантов: от шума до клинического значения

После аннотации каждый потенциально значимый вариант должен быть классифицирован в соответствии с его клиническим значением. Это стандартизированный процесс, который помогает врачам и пациентам понять, насколько серьезным может быть обнаруженное изменение в ДНК. Для этого используется международная пятиуровневая система классификации.

Ниже представлена таблица с описанием каждой из пяти категорий.

Класс варианта Значение Что это означает для пациента
Класс 5: Патогенный Вызывает заболевание Имеются убедительные доказательства, что этот вариант является причиной заболевания.
Класс 4: Вероятно патогенный С высокой вероятностью вызывает заболевание Большинство данных указывает на патогенность варианта, но для полной уверенности не хватает некоторых доказательств.
Класс 3: Вариант с неясной клинической значимостью (VUS) Неизвестно На сегодняшний день недостаточно данных, чтобы отнести вариант к патогенным или доброкачественным. Это не диагноз, а указание на необходимость дальнейшего наблюдения или исследований.
Класс 2: Вероятно доброкачественный С высокой вероятностью не вызывает заболевание Большинство данных указывает на то, что вариант является безвредной особенностью генома.
Класс 1: Доброкачественный Не вызывает заболевание Имеются убедительные доказательства, что этот вариант не связан с развитием заболевания и является частью нормальной генетической вариативности.

Роль врача-генетика: почему компьютер не может поставить диагноз

Важно понимать, что биоинформатический анализ — это мощнейший инструмент, но не замена врачу. Результатом всей сложной вычислительной работы является отчет со списком аннотированных и классифицированных генетических вариантов. Однако окончательное заключение делает только врач-генетик. Компьютер не видит пациента, не знает его симптомов, истории болезни и семейного анамнеза.

Именно врач сопоставляет данные, полученные в результате анализа NGS, с конкретной клинической картиной. Он оценивает, объясняет ли найденный вариант симптомы пациента, определяет его значимость в контексте всей медицинской информации. В некоторых случаях, особенно с вариантами неясной значимости (VUS), может потребоваться дополнительное обследование пациента или его родственников. Таким образом, биоинформатика предоставляет данные высочайшего качества, а врач-генетик превращает их в точный диагноз и план дальнейших действий.

Список литературы

  1. Гинтер Е.К. Медицинская генетика: учебник. — М.: Медицина, 2003. — 448 с.
  2. Пузырев В.П., Фрейдин М.Б. Генетический взгляд на феномен сочетанной патологии у человека // Вестник Российской академии медицинских наук. — 2017. — Т. 72 (6). — С. 416–425.
  3. Richards S., Aziz N., Bale S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology // Genetics in Medicine. — 2015. — Vol. 17 (5). — P. 405-424.
  4. Pevsner J. Bioinformatics and Functional Genomics. — 3rd ed. — Wiley-Blackwell, 2015. — 992 p.
  5. Клинические рекомендации «Муковисцидоз». Министерство здравоохранения Российской Федерации. 2021.

Читайте также по теме:

Вернуться к общему обзору темы:

Вопросы медицинским генетикам

Все консультации медицинских генетиков


Необходима официальная онлайон-консультация врача - генетика...



400 ₽

Здравствуйте. Я слышал о генетическом тестировании. Можете...



599 ₽

развитии тромбозов и инфаркта миокарда, в гетерозиготном...



Медицинские генетики

Все медицинские генетики


Медицинский генетик, Врач УЗД

Ярославская государственная медицинская академия

Стаж работы: 41 л.

Медицинский генетик

Волгоградский государственный медицинский университет

Стаж работы: 32 л.

Медицинский генетик

Ярославская государственная медицинская академия

Стаж работы: 56 л.