Расшифровать геном с помощью технологии секвенирования нового поколения (NGS) — значит получить огромный объем информации о нашей ДНК. Однако после завершения работы секвенатора (прибора, который «читает» ДНК) мы получаем не готовую книгу жизни, а гигантский набор данных, состоящий из миллиардов коротких фрагментов генетического кода. Этот цифровой архив сам по себе не несет клинического смысла. Превратить этот хаос данных в понятный и полезный для врача отчет — основная задача биоинформатики. Это междисциплинарная область науки, которая использует вычислительные методы для анализа биологических данных. Именно биоинформатический анализ позволяет найти в геноме те самые значимые изменения, которые могут быть связаны с заболеваниями.
Весь процесс можно сравнить с восстановлением огромной энциклопедии, которую сначала разрезали на миллионы мелких клочков, а затем перемешали. Биоинформатика — это набор инструментов и методов, которые позволяют сначала проверить качество каждого клочка, затем собрать их в правильном порядке, сравнить с эталонной версией энциклопедии, найти опечатки и, наконец, понять, что эти опечатки означают.
Что такое сырые данные NGS и почему их нельзя прочитать напрямую
Результатом работы секвенатора являются так называемые сырые данные. Обычно они представлены в виде файлов формата FASTQ. Такой файл содержит миллионы (или миллиарды) коротких последовательностей ДНК, называемых «ридами» или «прочтениями». Каждый рид — это небольшой фрагмент вашей ДНК, который прибор смог прочитать за один раз. Важно понимать, что эти фрагменты не упорядочены и содержат перекрывающиеся участки. Кроме самой последовательности букв (A, T, G, C), для каждой буквы указывается показатель качества — Phred score. Это статистическая оценка уверенности прибора в том, что именно эта буква находится в данной позиции. Чем выше показатель, тем надежнее результат.
Прочитать эти данные напрямую и понять что-либо невозможно по нескольким причинам. Во-первых, их колоссальный объем — полный геном человека может занимать сотни гигабайт. Во-вторых, фрагментарность и отсутствие порядка. Без специальной обработки это просто бессмысленный набор букв, как если бы вам дали все слова из романа «Война и мир» в случайном порядке.
Основные этапы биоинформатического анализа: от хаоса к порядку
Чтобы превратить сырые данные в информацию, пригодную для клинической интерпретации, биоинформатики используют сложные вычислительные алгоритмы, объединенные в так называемые «аналитические конвейеры». Каждый этап этого процесса решает свою конкретную задачу и строго контролируется. Ниже представлены ключевые шаги анализа данных секвенирования нового поколения.
- Контроль качества сырых данных. Это первый и один из самых важных этапов. Специальные программы проверяют качество каждого прочтения. Данные с низкими показателями качества (то есть те, в которых прибор не уверен) отбраковываются, а у оставшихся могут быть отрезаны «хвосты» с низким качеством. Этот этап гарантирует, что в дальнейший анализ попадут только надежные данные, что снижает риск ложных результатов. Это похоже на отбраковку бракованных деталей перед сборкой сложного механизма.
- Выравнивание. На этом этапе все прошедшие контроль качества фрагменты ДНК сопоставляются с эталонным геномом человека (референсным геномом). Референсный геном — это общепринятая, усредненная последовательность ДНК, собранная учеными в рамках проекта «Геном человека». Процесс выравнивания похож на сборку гигантского пазла, где в качестве образца используется картинка на коробке. Специальные программы-выравниватели находят для каждого рида его уникальное место в геноме. Результат этого этапа — файл формата BAM, где все фрагменты выстроены в правильном порядке.
- Поиск генетических вариантов. После того как геном пациента «собран» и выровнен относительно эталона, начинается самое интересное — поиск отличий. Этот процесс называется «поиском вариантов». Программа сравнивает последовательность ДНК пациента с референсной и отмечает все несовпадения: однонуклеотидные замены (SNP), небольшие вставки или выпадения участков ДНК (индели) и другие типы изменений. В результате формируется список всех генетических вариантов, обнаруженных у человека. У каждого из нас таких вариантов сотни тысяч, и подавляющее большинство из них — это просто часть нормальной человеческой изменчивости.
- Аннотация вариантов. Полученный список вариантов сам по себе не несет информации. Задача следующего этапа — аннотации — придать им смысл. Каждый вариант проверяется по десяткам международных баз данных. Что это за вариант? В каком гене он находится? Какую функцию выполняет этот ген? Встречался ли этот вариант раньше у здоровых людей? Связан ли он с какими-либо заболеваниями по данным научных публикаций? Компьютерные программы предсказывают, насколько «агрессивно» данная замена может повлиять на функцию белка. Этот этап обогащает сухой список вариантов бесценной биологической и медицинской информацией, отсеивая заведомо безвредные изменения и выделяя те, которые требуют пристального внимания врача-генетика.
Классификация генетических вариантов: от шума до клинического значения
После аннотации каждый потенциально значимый вариант должен быть классифицирован в соответствии с его клиническим значением. Это стандартизированный процесс, который помогает врачам и пациентам понять, насколько серьезным может быть обнаруженное изменение в ДНК. Для этого используется международная пятиуровневая система классификации.
Ниже представлена таблица с описанием каждой из пяти категорий.
| Класс варианта | Значение | Что это означает для пациента |
|---|---|---|
| Класс 5: Патогенный | Вызывает заболевание | Имеются убедительные доказательства, что этот вариант является причиной заболевания. |
| Класс 4: Вероятно патогенный | С высокой вероятностью вызывает заболевание | Большинство данных указывает на патогенность варианта, но для полной уверенности не хватает некоторых доказательств. |
| Класс 3: Вариант с неясной клинической значимостью (VUS) | Неизвестно | На сегодняшний день недостаточно данных, чтобы отнести вариант к патогенным или доброкачественным. Это не диагноз, а указание на необходимость дальнейшего наблюдения или исследований. |
| Класс 2: Вероятно доброкачественный | С высокой вероятностью не вызывает заболевание | Большинство данных указывает на то, что вариант является безвредной особенностью генома. |
| Класс 1: Доброкачественный | Не вызывает заболевание | Имеются убедительные доказательства, что этот вариант не связан с развитием заболевания и является частью нормальной генетической вариативности. |
Роль врача-генетика: почему компьютер не может поставить диагноз
Важно понимать, что биоинформатический анализ — это мощнейший инструмент, но не замена врачу. Результатом всей сложной вычислительной работы является отчет со списком аннотированных и классифицированных генетических вариантов. Однако окончательное заключение делает только врач-генетик. Компьютер не видит пациента, не знает его симптомов, истории болезни и семейного анамнеза.
Именно врач сопоставляет данные, полученные в результате анализа NGS, с конкретной клинической картиной. Он оценивает, объясняет ли найденный вариант симптомы пациента, определяет его значимость в контексте всей медицинской информации. В некоторых случаях, особенно с вариантами неясной значимости (VUS), может потребоваться дополнительное обследование пациента или его родственников. Таким образом, биоинформатика предоставляет данные высочайшего качества, а врач-генетик превращает их в точный диагноз и план дальнейших действий.
Список литературы
- Гинтер Е.К. Медицинская генетика: учебник. — М.: Медицина, 2003. — 448 с.
- Пузырев В.П., Фрейдин М.Б. Генетический взгляд на феномен сочетанной патологии у человека // Вестник Российской академии медицинских наук. — 2017. — Т. 72 (6). — С. 416–425.
- Richards S., Aziz N., Bale S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology // Genetics in Medicine. — 2015. — Vol. 17 (5). — P. 405-424.
- Pevsner J. Bioinformatics and Functional Genomics. — 3rd ed. — Wiley-Blackwell, 2015. — 992 p.
- Клинические рекомендации «Муковисцидоз». Министерство здравоохранения Российской Федерации. 2021.
Читайте также по теме:
Вернуться к общему обзору темы:
Вопросы медицинским генетикам
Все консультации медицинских генетиков
Необходима официальная онлайон-консультация врача - генетика...
Здравствуйте. Я слышал о генетическом тестировании. Можете...
Медицинские генетики
Медицинский генетик, Врач УЗД
Ярославская государственная медицинская академия
Стаж работы: 41 л.
Медицинский генетик
Волгоградский государственный медицинский университет
Стаж работы: 32 л.
Медицинский генетик
Ярославская государственная медицинская академия
Стаж работы: 56 л.
