Секвенирование ДНК

Содержание

Секвенирование ДНК

Секвенирование ДНК – это технология «прочтения» ге­не­ти­чес­ко­го кода . Что такое ДНК, вы можете узнать в нашей предыдущей статье. А данный материал является переводом статьи, опу­бли­ко­ван­ной в 2016 году в целом ряде ве­ри­фи­ци­руе­мых научных журналов , . Так же статья будет дополнена свежими данными за 2018 год и немного упрощена в технической части. Актуальность статьи обусловлена невероятной скоростью развития данной технологии . Ввиду этого, полезно знать не только историю развития се­кве­ни­ро­ва­ния ДНК, но и существующее положение дел. Тем не менее, поскольку данная статья является переводом, каких-то других ссылок не будет, а работы, на которые ссылаются сами ис­сле­до­ва­те­ли, можно посмотреть в оригинале.

Определение порядка остатков нуклеиновых кислот в био­ло­ги­чес­ких образцах является важной частью широкого круга исследований. За последние пятьдесят лет множество ис­сле­до­ва­те­лей занимались разработкой технологий и методологии для решения задачи се­кве­ни­ро­ва­ния молекул ДНК и РНК. Мы стали свидетелями грандиозных открытий! Сначала мы научились се­кве­ни­ро­ва­нию коротких оли­го­ну­клео­ти­дов, а затем цепочек с миллионами нуклеотидных оснований. От попыток се­кве­ни­ро­ва­ния одного гена мы дошли до се­кве­ни­ро­ва­ния ДНК. В данной статье мы проследим этот путь, осветив и без того яркие события истинного познания себя.

«Знания о секвенировании могут нам помочь познать суть живой материи» Фредерик Сенгер. Порядок нуклеиновых кислот в по­ли­ну­клео­тид­ных цепочках, в конечном счёте, содержит информацию о на­след­ст­вен­ных и био­хи­ми­че­ских свойствах земной жизни. Именно поэтому способность измерять или синтезировать такие по­сле­до­ва­тель­но­сти, совершенно необходима для био­ло­ги­че­ских ис­сле­до­ва­ний. Эта статья посвящена тому, как исследователи на протяжении многих лет изучали проблему разгадки ге­не­ти­чес­ко­го кода. Для удобства данная статья разбита на главы, выделяющие вехи в се­кве­ни­ро­ва­нии ДНК. Итак, поехали!

Первые шаги

Уотсон и Крик установили трёхмерную структуру ДНК в 1953 году (прим. редакции Кольцов писал об этом ещё в 1928 году ), используя данные Розалинды Франклин и Мориса Уилкинса. Это стало основой работ, как по репликации ДНК, так и по изучению кодирования белков в нуклеиновых кислотах. Однако, способность «читать» ДНК долго всё ещё оставалась лишь отдалённой перспективой. Способы, разработанные для определения по­сле­до­ва­тель­нос­ти белковых цепей, не удавалось применять для исследования нуклеиновой кислоты. Молекулы ДНК намного длиннее и их структура гораздо более однородна, ввиду чего их сложно определить. Необходимо было разработать новую технологию.

Сначала усилия сосредоточили на секвенировании наиболее простых РНК. Таких, как рибосомная РНК микробов, транспортная РНК (тРНК) и геномы одноцепочечных РНК-бактериофагов. Их достаточно просто выделить, и они не осложнены ком­пле­мен­тар­ной цепью, ввиду чего значительно короче ДНК. Кроме того, ферменты рибонуклеазы (РНКазы), способные «вырезать» цепочки РНК на определенных участках цепи, были к тому времени известны. Но поскольку доступные методы позволяли измерять только состав нуклеотидов, в то время как их порядок оставался загадкой, процесс изучения был «долог и тернист».

Прорыв случился, когда методы аналитической химии объединили с методами селективной обработки РНКазы, учтя особенности нуклеотидного основания РНК. Произошло это в 1965 году, когда Роберт Холли со своей ис­сле­до­ва­тельс­кой группой «прочли» по­сле­до­ва­тель­ность тРНК Saccharomyces cerevisiae. Они использовали метод се­кве­ни­ро­ва­ния Фредерика Сенгера. Он основан на обнаружении фрагментов частичного расщепления, помеченных радиоактивным изотопом. Используя этот же метод, в 1972 году в лаборатории Уолтера Фирса смогли разобрать первую полную по­сле­до­ва­тель­ность кодирующего белок гена бактериофага MS2. Четыре года спустя удалось осуществить се­кве­ни­ро­ва­ние его полного генома.

Секвенирование ДНК: первое поколение

Вот тогда и началась настоящая история се­кве­ни­ро­ва­ния ДНК. По­спо­соб­ст­во­вал этому разработанный метод ректификации генома бактериофагов. Рэй Ву и Дейл Кайзер использовали наблюдение ко­м­пле­мен­тар­нос­ти нуклеотидных оснований. Они взяли ДНК-полимеразу, помечая концы ра­дио­ак­тив­ны­ми нуклеотидами. Затем подобрали ком­пле­мен­тар­ные нуклеотиды для выведения по­сле­до­ва­тель­нос­ти. Всё это происходит незадолго до того, как этот метод будет доработан, и исследователи получат возможность определять порядок нуклеотидов на любом участке цепи. Тем не менее, определение оснований всё ещё ог­ра­ни­чи­ва­лось короткими отрезками ДНК, а протокол исследований включал большое количество методов ана­ли­ти­че­ской химии и процедур фрак­цио­ни­ро­ва­ния.

Следующим шагом было замещение двухмерного фрак­цио­ни­ро­ва­ния на электрофорез в по­ли­ак­ри­ла­мид­ном геле. Этот способ в 1970 использовался в методе «плюс/минус» Алана Коулсона и Фредерика Сенгера, а так же в 1975 в методе химического расщепления Алана Максама и Вальтера Гилберта. Следует заметить, что, не смотря на использование в обоих случаях по­ли­ак­ри­ла­мид­но­го геля, методы различаются. Но они оба являются прародителями настоящей техники се­кве­ни­ро­ва­ния ДНК. Тем не менее, из-за своей простоты именно метод Сенгера стал ведущим и до сих пор является эталоном надёжности. Хотя его и используют относительно редко, поскольку он очень дорогой.

Методы конкуренты

В методе «плюс/минус» использовалось радиоактивное мечение и «испорченные буквы», в которых нет места для новых связей. Таким образом, в каждую пробирку клался определённый набор букв, а в итоге получались цепочки разной длины, на одном конце которой была радиоактивная метка, а на другом «испорченная буква», к которой ничего не могло присоединиться. Далее всё это «разгонялось» в геле, а затем рас­кла­ды­ва­лось на фотоплёнку, и ДНК собирался путём синтеза данных. Синтез возможен потому, что мы знаем, в какую пробирку какие буквы мы клали. Всё, что остаётся сделать исследователям, это подняться по «лестнице» и «прочесть» всю по­сле­до­ва­тель­ность ДНК.

Метод секвенирования ДНК Максама–Гилберта предполагает разделение по­ли­нук­лео­тид­ной цепи на фрагменты с помощью химического расщепления. Расщепления осу­щест­вля­ет­ся по определённым основаниям нуклеотидов, поэтому после «разгонки» в геле и определения длины фрагментов, можно определить положение меченых нуклеотидов. И в итоге собрать по­сле­до­ва­тель­ность ДНК. Тем не менее, первое полное сек­ве­ни­ро­ва­ние ДНК бактериофага φX174 удалось осуществить именно Сенгеру. (прим. редакции а в 1980 году Гилберт и Сенгер получили Нобелевскую премию ). И, как мы уже отмечали выше, именно метод Сенгера сыграл решающую роль в развитии технологии секвенирования ДНК.

Автоматизация

Метод Сенгера был в дальнейшем доработан. Во-первых, ра­дио­ак­тив­ную метку заменили на флуо­рес­цент­ную, во-вторых, внедрили методологию капиллярного электрофореза. Всё это позволило ав­то­ма­ти­зи­ро­вать процесс, внедрив технические устройства для сек­ве­ни­ро­ва­ния ДНК. Но машины для сек­ве­ни­ро­ва­ния ДНК первого поколения не позволяли анализировать длинные фрагменты генома, поэтому был разработан «метод дробовика». Этот метод предполагал клонирование фрагментов ДНК, которые потом собирались в силиконе в одну длинную непрерывную по­сле­до­ва­тель­ность. Затем всё это «вылилось» в дидезокси-метод секвенирования с ис­поль­зо­ва­ни­ем таких устройств, как ABI PRISM, разработанных Лероем Худом.

Второе поколение ДНК секвенаторов

Наряду с дидезокси-секвенированием развивалось так же пи­ро­сек­ве­ни­ро­ва­ние ДНК. Оно получило такое название в результате использования пирофосфата для определения по­сле­до­ва­тель­нос­ти ДНК. Суть принципа заключается в использовании АТФ-сульфатазы для прихождения пирофосфата в аде­но­зин­три­фос­фор­ную кислоту (АТФ), которая используется в качестве субстрата люциферазы. В результате происходит вспышка света, мощность которой пропорциональна количеству пирофосфата. У этого метода есть преимущество. Он позволяет использовать натуральные нуклеотиды и наблюдать результат в реальном времени. Тем не менее, есть и трудности. Яркость вспышки позволяет определить длину гомополимера, но точность определения нуклеотидов оставляет желать лучшего.

Пиросеквенирование

Патент на пиросеквенирование получила компания 454 Life Sciences, в результате чего она стала первой успешной коммерческой компанией сек­ве­ни­ро­ва­ния нового поколения (СНП). Главной особенностью данной технологии сек­ве­ни­ро­ва­ния ДНК является быстрота и дешевизна. Она позволяет обрабатывать огромные объёмы данных. ДНК фраг­мен­ти­ру­ет­ся на кусочки по 300–500 пар оснований, затем, при помощи оли­го­нук­лео­ти­да, цепи прилипают к пластиковым бусинам. Причём к каждой бусине прилипает лишь одна цепочка!

Бусина затем попадает в капельку масла, содержащую смесь для реализации полимеразной цепной реакции (ПЦР), происходящей в каждой отдельной капельке эмульсии (эПЦР). В результате происходит амплификация ДНК, то есть, клонирование, после чего эмульсия разрушается, а вновь созданные в ходе ПЦР двуцепочечные фрагменты ДНК разделяются, и бусины, несущие одноцепочечные копии ДНК-матрицы, помещаются в лунки «предметного стекла». Каждая лунка такого слайда образует отдельный пиколитровый «реактор», в котором и будет происходить реакция секвенирования.

Эта установка способна производить считывание около 400–500 пар оснований для миллионов или около того скважин, которые, как ожидается, будут содержать подходящие клонированные бусины. Эта параллелизация и привела к росту про­из­во­ди­тель­нос­ти технологии. Например, исследователи смогли с её помощью намного быстрее «прочитать» геном пионера секвенирования ДНК Джеймса Уотсона, чем при использовании секвенсора Sanger командой Крейга Вентера. И именно эта высокая скорость обработки данных сделала технологию доступной для широкого потребителя. Причём новая машина 454 GS FLX ещё более эффективна, чем их старая модель GS 20.

Секвенирование Solexa

Параллельно создаются другие методы сек­ве­ни­ро­ва­ния ДНК, наиболее заметным из которых является Solexa, приобретённый Illumina. Суть метода заключается в следующем. К обоим концам предварительно фраг­мен­ти­ро­ван­ной ДНК лигируют адаптеры, необходимые для ПЦР и последующего секвенирования на молекулярных кластерах. Полученные ДНК-библиотеки иммобилизуют на поверхности проточной ячейки, где и проводят циклический процесс сек­ве­ни­ро­ва­ния. Реакционная смесь для синтеза ком­пле­мен­тар­ной ДНК подается на поверхность проточной ячейки и содержит ферменты, оли­го­ну­клео­ти­ды, а также четыре типа флуоресцентно меченых дез­ок­си­нук­лео­зид­три­фос­фа­тов. После включения в синтезируемую цепь ДНК нуклеотида-терминатора, тип включенного нуклеотида и его положение идентифицируют с помощью ПЗС-матрицы. Затем терминирующая группа и флуо­рес­цент­ная краска отщепляются от нуклеотида, и цикл синтеза повторяется. Эта серия шагов продолжается определенное количество раз, число которых задает пользователь

Секвенирование SOLiD

Рынок секвенсоров очень динамичен, поэтому множество разных аппаратов было создано и кануло в Лету. Наиболее заметной альтернативой является SOLiD, которой сначала занималась компания Applied Biosystems, а потом Life Technologies. Данная технология сек­ве­ни­ро­ва­ния ДНК использует не синтез, а лигирование. Именно поэтому она не может достичь такой же длины и глубины «чтения» генетического кода, как Solexa, но из-за своей цены она остаётся конкурентно способной. Так же заметной технологией лигирования стали «ДНК наношарики» компании Complete Genomic.

Третье поколение секвенсоров

Существует немало споров о том, как отличать разные поколения секвенсоров, какие признаки следует учитывать и как их группировать. Особенно много трудностей вызывает отделение аппаратов третьего поколения от второго. Мы под третьим поколением понимаем те устройства, которые способны секвенировать отдельную молекулу. Все предыдущие поколения нуждались в амплификации. Секвенсоры третьего поколения нет. Первая такая технология была разработана лабораторией Stephen Quake. Их технология похожа на Solexa, но в ней используются обратимые флуо­рес­цент­ные нуклеотиды-терминаторы. Попытались использовать эту технологию в коммерческих целях Helicos BioSciences, но в 2012 году они подали документы на банкротство.

На 2016 год самой популярной технологией сек­ве­ни­ро­ва­ния ДНК третьего поколения была «Single molecule real time» или SMRT-секвенирование. Занимается данной технологией Pacific Biosciences. SMRT-сек­ве­ни­ро­ва­ние осу­щест­вля­ет­ся в специальных ячейках Zero-mode waveguide (ZMWs), которые, по сути, являются крошечными отверстиями в металлической плёнке, покрывающей подложку. В ячейку подаётся свет, но из-за строения ZMWs он не рассеивается, а освещает исключительно дно. Это позволяет подсветить молекулу, отмеченную флуоресцентным элементом, а поскольку зона освещения чрезвычайно точна, удаётся визуализировать одиночные молекулы даже на фоне соседних. Затем «детектируемый» элемент отщепляется и секвенирование продолжается для следующего положения нуклеотидной цепи.

Особенностью SMRT-секвенирования является способность обнаруживать мо­ди­фи­ци­ро­ван­ные основания и секвенировать за раз очень длинные отрезки цепочки ДНК. Но наиболее перспективными секвенсорами третьего поколения являются GridION и MiniON, разрабатываемые компанией Oxford Nanopore Technologies. Так дела обстояли на 2016 год, и так же они обстоят на 2018. По факту карманный секвенсор MiniON в 2018 году позволил прочитать геном человека . Точность секвенирования ДНК сравнили с результатами традиционных методов секвенирования, и оказалось, что точность MiniON стремится к 100%. Возможно, такие приборы в скором будущем появятся в каждой поликлинике!

P.S. Бла­го­да­рим за вни­ма­ние! На­де­ем­ся, что ста­тья бы­ла ин­те­рес­на и поз­на­ва­тель­на. Ес­ли у вас ос­та­лись ка­кие-ли­бо воп­ро­сы, есть за­ме­ча­ния или вы хо­ти­те выс­ка­зать сло­ва бла­го­дар­нос­ти, то для все­го это­го мож­но вос­­поль­­зо­­вать­­ся фор­мой ком­мен­та­ри­ев ни­же. Оце­ни­вай­те ста­тью, де­ли­тесь ею с друзь­я­ми в со­ци­аль­ных се­тях, до­бав­ляй­те сайт в из­бран­ное и бо­ри­тесь с мра­ко­бе­си­ем во всех его про­яв­ле­ни­ях, аминь!

Два одинаковых человека могут иметь абсолютно разные наследственные предпосылки к разным заболеваниям и по-разному реагировать на одни и те же лекарства.

Полное секвенирование генома человека — решение, которое
позволяет с максимальной точностью проводить диагностику
и подбирать программу лечения, опираясь на самые мельчайшие
детали, а именно — на ваши гены.

Что вам дает секвенирование?

Полный анализ генной информации — это возможность определить наличие любых наследственных патологий. Это метод диагностики, позволяющий вовремя провести профилактику заболеваний, к которым вы предрасположены.

Полученную при секвенировании информацию можно использовать не только сейчас, но и в будущем, ведь база данных, в которой генная информация сопоставляется с определенными заболеваниями или эффективностью действия тех или иных лекарственных средств, постоянно пополняется за счет непрекращающихся исследований.

Секвенирование позволяет сделать выводы о том, какие болезни вы уже перенесли, какие заболевания вам грозят в будущем и какие наследственные патологии смогли «перекочевать» от вас к вашим детям, но еще не проявили себя.

Прецизионная медицина или персонализированная медицина — это медицина завтрашнего дня, когда выбор того или иного лекарственного препарата, постановка того или иного диагноза будут диктоваться анализом вашей наследственной информации. И основа такого анализа — данные секвенирования генома, которые вы можете получить уже сегодня.

Проведя полное секвенирование всего один раз, вы получите данные, которые специалист сможет использовать для диагностики уже имеющихся или пока спящих заболеваний. Сравнивая эти данные с уже имеющимся научным материалом, который постоянно накапливается в международных базах данных, можно определить риск развития онкологических и сердечно-сосудистых заболеваний, остеопороза, любых других патологий.

Этим занимается наука фармакогеномика — направление фармакологии, которое изучает возможности «прицельного» применения лекарственных веществ на основе экспрессии разных генов. Используя содержащуюся в геноме информацию, можно прописывать вам лекарственные препараты, которые окажутся по-настоящему эффективными, более того, можно корректировать их дозировку.

Полное секвенирование — коротко о главном

  • Возможность быстрой диагностики наследственных заболеваний, даже самых редких.

  • Возможность за один раз получить всеобъемлющие данные о вашем генокоде.

  • Выявление наследственных патологий не только у вас, но и у членов вашей семьи.

  • Ваш первый шаг на пути к персонализированной медицине завтрашнего дня, когда разные виды лечения будут назначаться в зависимости от индивидуальной экспрессии генов (в ряде стран такая медицина существует уже сегодня).

  • Возможность сохранить результаты и использовать их в ближайшем будущем, когда мировая медицина накопит еще больше данных о соответствии зашифрованной в геноме информации определенным заболеваниям.

Первое полное секвенирование генома в 2003 году обошлось мировой науке почти в три миллиарда долларов. Через несколько лет первая в мире коммерческая система полного секвенирования делала один анализ за 300 тысяч долларов. Сегодня у вас появилась возможность пройти полное секвенирование по цене билета на концерт.

>Секвенирование геномов для «чайников»

Геномика: постановка задачи и методы секвенирования

ПостНаука

Сергей Николенко, кандидат физико-математических наук, старший научный сотрудник лаборатории вычислительной биологии Санкт-Петербургского Академического Университета в серии статей говорит о некоторых задачах биоинформатики, связанных со сборкой и анализом геномов, делая акцент на математической, комбинаторной постановке задачи. В данном, вводном, тексте речь идет о том, как выглядят входные данные для сборки геномов и как их получают.

Как выглядит молекула ДНК?

Начнем с того, как выглядит молекула ДНК. Молекулы полимеров характеризуются первичной структурой, под которой понимается просто состав молекулы (в данном случае – последовательность букв A, C, G и T, которые и составляют геном), вторичной структурой, т.е. тем, какие именно химические связи устанавливаются между этими компонентами и какие в результате получаются базовые пространственные структуры (в данном случае – двойная спираль), и третичной структурой, т.е. тем, как вторичная структура «уложена» в пространстве. Вторичная структура ДНК представляет собой двойную спираль, состоящую из четырёх разных нуклеотидов.


Рисунок из Википедии

Нуклеотиды обозначаются по содержащимся в них азотистым основаниям: аденину (A), цитозину (C), гуанину (G) и тимину (T) (есть ещё урацил, который в РНК заменяет тимин), и в дальнейшем мы всегда будем пользоваться этими буквами. В двойной спирали эти аминокислоты связаны друг с другом водородными связями, и связь устанавливается по принципу комплементарности: если в одной нити ДНК стоит A, то в комплементарной нити будет T, а если в одной нити C, то в другой будет G. Именно это позволяет относительно просто проводить репликацию (копирование) ДНК, например, при делении клетки: для этого достаточно просто разорвать водородные связи, разделив двойную спираль на нити, после чего парная нить для каждого «потомка» автоматически соберётся правильно. Важно понять, что ДНК – это две копии одного и того же «текста» из четырёх «букв»; «буквы» в копиях не идентичны, но однозначно соответствуют друг другу. Например:

ATGCAGAACAGACGATCAGCGACACTTTA
TACGTCTTGTCTGCTAGTCGCTGTGAAAT

Было бы, конечно, удобно, если бы нам удалось аккуратно «вытянуть» одну нить ДНК и спокойно, нуклеотид за нуклеотидом, «прочесть» эту нить от начала до конца. При таком, идеальном, методе секвенирования (чтения ДНК) никаких хитрых алгоритмов не понадобилось бы. К сожалению, на данном этапе такое невозможно, и приходится довольствоваться результатами того секвенирования, которое есть.

Что такое секвенирование?

Секвенирование (sequencing) – это общее название методов, которые позволяют установить последовательность нуклеотидов в молекуле ДНК. В настоящее время нет ни одного метода секвенирования, который бы работал для молекулы ДНК целиком; все они устроены так: сначала готовится большое число небольших участков ДНК (клонируется молекула ДНК многократно и «разрезается» в случайных местах), а потом читается каждый участок по отдельности.

Клонирование происходит либо просто выращиванием клеток в чашке Петри, либо (в случаях, когда это было бы слишком медленно или по каким-то причинам не получилось бы) при помощи так называемой полимеразной цепной реакции. В кратком и неточном изложении работает она примерно так: сначала ДНК денатурируют, т.е. разрушают водородные связи, получая отдельные нити. Затем к ДНК присоединяют так называемые праймеры; это короткие участки ДНК, к которым может присоединиться ДНК-полимераза – соединение, которое, собственно, и занимается копированием (репликацией) нити ДНК.


Рисунок из Википедии

На следующем этапе полимераза копирует ДНК, после чего процесс можно повторять: после новой денатурации отдельных нитей будет уже вдвое больше, на третьем цикле – вчетверо, и так далее.

Все эти эффекты достигаются в основном с помощью изменений температуры смеси из ДНК, праймеров и полимеразы; для наших целей важно, что это достаточно точный процесс, и ошибки в нём редки, а на выходе получается большое число копий участков одной и той же ДНК. Разные методы секвенирования отличаются друг от друга не методами клонирования, а тем, как потом прочесть получившийся «суп» из многочисленных копий одной и той же ДНК.

Секвенирование по Сэнгеру

Первым методом секвенирования, который учёные сумели применить для обработки целых геномов (в том числе генома человека), стало секвенирование по Сэнгеру (Sanger sequencing). Смысл таков: участок ДНК клонируется, после чего полученная смесь делится на четыре части. Каждая часть помещается в активную среду, где присутствуют:

  1. ДНК-полимераза, которая, как мы уже выяснили, занимается репликацией,
  2. праймеры, необходимые для начала процесса репликации,
  3. смесь всех четырёх нуклеотидов, которые будут служить «кирпичиками» для строительства новых копий ДНК,
  4. и, главное, специальные вариации одного из нуклеотидов (ровно один вид нуклеотидов для каждой части), которые прекращают дальнейшее копирование молекулы ДНК.

Собственно, процесс практически идентичен клонированию ДНК, с которым мы встретились в предыдущем разделе. Разница только в том, что теперь в один из нуклеотидов подмешаны «ложные» нуклеотиды; они могут образовать точно такую же водородную связь, но не могут продолжить свою нить дальше.

В результате в каждой части образуется большое число копий префиксов исследуемого участка ДНК, которые имеют разную длину, но всегда заканчиваются на одну и ту же букву – в зависимости от того, когда повезёт взять в процесс клонирования «ложный» нуклеотид. Например, в пробирке, где все последовательности заканчиваются на Т, из нашего примера выше получилась бы смесь из следующих префиксов:

Как теперь, получив такую смесь, «прочесть» геномную последовательность? Заметим, что в сумме в четырёх пробирках мы получили все возможные префиксы интересующего нас участка. Это значит, что если мы сможем просто измерить длину каждого префикса (точнее говоря, даже не измерить, а просто упорядочить, узнав, кто из них длиннее), то мы сможем узнать и последовательность тоже. Предположим, что мы увидели, что в пробирках лежат префиксы вот такой длины (по порядку, от самого лёгкого 1 до самого тяжёлого 10):A C G T
1, 5, 7, 8, 10 4, 9 3, 6 2

Очевидно, что эта последовательность начинается с А (т.к. самый лёгкий префикс, из одной буквы, заканчивается на A); дальше идёт C, дальше опять A, и так далее. В результате можно прочесть исходный участок: ATGCAGAACA.

А чтобы измерить длину, можно, например, измерить массу всех префиксов во всех пробирках. Чтобы измерить массу, можно, например (разные секвенаторы использовали разные процедуры, но суть от этого не меняется), ионизировать эти молекулы и отправить их наперегонки к заряженному электроду в специальном геле, который создаст трение и замедлит продвижение молекул – этот метод называется электрофорезом. При одинаковом заряде более тяжёлые молекулы будут двигаться медленнее, и в результате получится примерно такая картинка.


Рисунок из Википедии

Видно, что (в идеальном случае) можно просто прочесть последовательность нуклеотидов от самого лёгкого префикса (т.е. префикса из одной буквы) к самому тяжёлому.

Результаты и ошибки сэнгеровского секвенирования

На выходе из сэнгеровского секвенатора получаются короткие участки ДНК, так называемые риды (reads). Для биоинформатики принципиальны две вещи: во-первых, какой длины получаются риды, во-вторых, какие в них могут быть ошибки и как часто (разумеется, на свете нет ничего идеального).

Сэнгеровские риды по этим критериям очень хороши: получаются риды длиной около тысячи нуклеотидов, причём качество начинает заметно падать только после 700-800 нуклеотидов. Сам процесс секвенирования по Сэнгеру, с которым мы познакомились в предыдущем разделе, предопределяет и эффект падения качества (труднее отличить молекулу массой 700 от молекулы массой 701, чем массу 5 от массы 6), и другой неприятный эффект – если в геноме встречается длинная последовательность из одной и той же буквы (…AAAAAAAA…), трудно бывает точно определить, какой она длины – все промежуточные массы попадут в одну и ту же пробирку, некоторые из них могут не встретиться, некоторые слиться друг с другом и т.д. Но всё же сэнгеровское секвенирование даёт отличные результаты с достаточно длинными ридами, которые потом относительно легко собирать. О том, как это делается, мы будем говорить в последующих текстах.

Именно при помощи сэнгеровского секвенирования был впервые расшифрован геном человека. Секвенирование по Сэнгеру применяется и сегодня, но его всё активнее вытесняют другие методы, и применяется оно всё реже. Кому же и почему оно уступило свои позиции?

Секвенаторы второго поколения: Illumina

Современные секвенаторы – это так называемые секвенаторы второго поколения (SGS, second generation sequencing). В них участки ДНК по-прежнему многократно клонируются, но процесс чтения устроен не так, как у Сэнгера. Существует много разных методов, отличающихся довольно существенно, поэтому мы рассмотрим только один из них, один из самых популярных на сегодня – секвенирование по методу Solexa (ныне Illumina; в смене названия не нужно искать глубокий смысл, просто одна компания купила другую).

Процесс секвенирования Illumina проиллюстрирован на рисунке; кроме того, можно посмотреть один из нескольких существующих видеороликов с анимацией этого процесса – в данном случае, действительно, лучше один раз увидеть, чем сто раз прочесть текст. Однако краткие комментарии тоже пригодятся; вот как происходит процесс секвенирования по методу Illumina.

  1. Копии ДНК разрезаются в случайных местах на большое число небольших участков.
  2. К каждому участку с двух сторон добавляют специальные адаптеры – заранее известные небольшие последовательности нуклеотидов.
  3. Затем полученная смесь помещается на специально подготовленную подложку, из которой в виде решётки «растут» участки ДНК, комплементарные адаптерам. Таким образом, они способны «привязать» снабжённые адаптерами участки ДНК к этим местам. Кроме того, адаптеры также содержат праймеры, участки, к которым может присоединиться ДНК-полимераза, которая осуществляет репликацию ДНК.
  4. На шаге 3 разные участки ДНК случайным образом «присасываются» к разным местам в решётке. Теперь мы многократно клонируем каждый участок вокруг своего места, получая тем самым целые «кластеры». Этот процесс известен как bridge amplification, потому что ДНК привязывается к подложке сразу двумя концами; о том, что это означает для биоинформатики, мы поговорим в следующем разделе.
  5. Участки ДНК денатурируют (разрушают водородные связи) – в результате из узлов решётки на подложке «растут» разные участки ДНК, состоящие из одной нити.
  6. Подложка помещается в раствор, содержащий ДНК-полимеразу и специально помеченные нуклеотиды, которые сразу же заканчивают процесс репликации (если помните, в сэнгеровском секвенировании такие тоже применялись). Они присоединяются к ДНК, по одному к каждому участку. Соответственно, к каждому участку присоединяется та «буква», с комплементарной к которой он начинается.
  7. Затем «лишние» нуклеотиды смывают, а метки оставшихся считывают; в технологии Illumina это флуоресцентные метки, которые можно заставить светиться разным цветом и сфотографировать. Именно на этом шаге мы и узнаём, с какой буквы начинается каждый «кластер участков» ДНК.
  8. После этого с уже связанных нуклеотидов химически «срезается» радикал, который мешал дальнейшей надстройке молекулы ДНК. Теперь можно вернуться на шаг 6 и повторить процесс, читая на втором цикле вторые буквы в каждой последовательности, и так далее.

В результате на каждом цикле мы прочитываем одновременно очень большое число нуклеотидов из разных последовательностей. Но за это приходится платить тем, что участки ДНК, которые мы можем прочесть, оказываются гораздо короче, чем в случае секвенирования по Сэнгеру – риды Illumina обычно получаются длиной около 100 нуклеотидов.

Парные риды и постановка задачи

Есть ещё одна важная деталь. Участки ДНК «присасываются» к подложке обоими концами, причём мы можем узнать, какие последовательности соответствуют одному и тому же участку. Это значит, что в реальности мы читаем один и тот же участок, длина которого нам приблизительно известна, сразу с двух сторон. В результате данные получаются примерно такого вида:

ATGCAGA???????????????CACTTTA,

причём расстояние между известными строчками (число вопросительных знаков) известно не совсем точно. В зависимости от технологии, можно получить как очень длинные неизвестные фрагменты (около 1000 нуклеотидов), «обрамлённые» двумя ридами длины 100, так и короткие фрагменты, в которых неизвестны буквально два-три десятка нуклеотидов между ридами. И те, и другие могут очень помочь в сборке, и об этом мы тоже будем говорить в следующих сериях.

Итак, теперь мы можем формально поставить задачу сборки геномов. Она звучит так: по большому числу подстрок небольшой длины восстановить исходную длинную строку в алфавите из букв A, C, G, T. В случае секвенирования по методу Illumina – по большому числу пар коротких подстрок, разделённых в исходной строке приблизительно известным расстоянием. Поставив эту задачу, мы можем забыть про биологию, химию и медицину – перед нами чисто алгоритмическая задача. Однако, прежде чем перейти к математике, сделаем ещё несколько замечаний.

Ошибки и показатели качества в секвенаторах второго поколения

Как мы уже знаем, секвенирование всегда содержит ошибки. В секвенаторах Illumina и аналогичных ошибки, как правило, происходят на фазе, когда нужно распознать помеченные нуклеотиды, т.е. понять, каким цветом и с какой силой светятся кластеры из многократно клонированных участков ДНК. На рисунке – типичный пример такой фотографии, порождённой секвенатором Illumina.


Рисунок с сайта medicine.yale.edu

Проблема здесь заключается в том, что из-за неидеальности остальных этапов процесса кластеры никогда не светятся только одним цветом; это всегда смесь всех четырёх цветов с той или иной интенсивностью. Нужно выделить наиболее интенсивную компоненту и оценить, насколько вероятна ошибка в этой букве; эта задача называется base calling (распознавание нуклеотидов). Base calling – это целая наука, в подробности которой мы сейчас вдаваться не будем.

Для нас сейчас важно, что в результате каждому нуклеотиду каждого рида секвенатор ставит в соответствие вероятность того, что этот нуклеотид был распознан правильно. Эти вероятности тоже можно использовать при сборке, и секвенаторы выдают их вместе с собственно ридами.

В итоге типичный рид в так называемом fastq-формате, стандартном для секвенаторов второго поколения, выглядит примерно так:

Первая и третья строки содержат имя рида; вторая строка – сама последовательность нуклеотидов. Обратим внимание, что среди букв A, C, G, T встречаются и буквы N – это значит, что секвенатор не смог однозначно определить, какой здесь был нуклеотид, и сдался. А четвёртая строка кодирует, в логарифмическом масштабе, вероятности того, что тот или иной нуклеотид распознан правильно; например, H здесь соответствует вероятности ошибки около одной десятитысячной. Как правило, качество ухудшается к концу рида; в нашем примере, как видите, хвост рида и вовсе не удалось сколь-нибудь надёжно прочитать.

Другие методы секвенирования

Хотя мы подробнее всего рассмотрели секвенатор Illumina (Solexa), на самом деле на этом методе свет клином не сошёлся. Есть и другие секвенаторы второго поколения, с другими свойствами.

В секвенировании лигированием (sequencing by ligation) на фазе, когда уже нужно распознавать нуклеотиды, используют не ДНК-полимеразу и процесс репликации, а специальные короткие «зонды», которые присоединяются к комплементарным нуклеотидам, фиксируются, затем вымываются, и процесс повторяется снова. Так устроен секвенатор SOLiD от Applied Biosystems.

Пиросеквенирование (pyrosequencing) основано на хемилюминесцентных сигналах, которые подают специально модифицированные нуклеотиды, когда соединяются с комплементарным нуклеотидом в прочитываемой нити ДНК; на этом принципе работает, например, секвенатор 454 от 454 Life Sciences.

Принцип работы секвенатора PacBio (от Pacific Biosciences) очень похож на принцип работы Illumina, но у него по-другому устроен метод детектирования – специальные «решётки» позволяют уловить сигналы от отдельных молекул (метод получил название SMRT, single molecule real time sequencing). Это позволяет ускорить процесс, уместить больше ридов на одной подложке (нужно меньше клонировать ДНК, не нужно выращивать большие кластеры) и существенно увеличить длину надёжно прочитываемых ридов.

Недавно появившийся метод ионного полупроводникового секвенирования (на нём основан секвенатор IonTorrent) вместо всего этого просто детектирует соединения (ионы), которые выделяются при присоединении нового нуклеотида к нити ДНК. Это позволяет радикально сократить время и стоимость получаемых ридов, хотя процент ошибок становится больше, и больше становится ошибок в фрагментах из повторяющейся одной буквы.

Человеческая мысль не стоит на месте: методы секвенирования постоянно улучшаются. Однако практически все современные методы выдают относительно короткие риды, от 100 до 400 нуклеотидов; в этом цикле мы будем в основном говорить о том, как собирать именно короткие риды.

Sanger или Illumina?

Человеческий геном был впервые собран на сэнгеровских секвенаторах, причём алгоритмическая сторона того проекта была проработана гораздо меньше, чем сейчас, десять лет спустя. Алгоритмы, которыми собирали первый человеческий геном, значительно проще тех, о которых мы будем говорить в дальнейшем. Однако первый геном всё-таки собрали; может быть, весь алгоритмический прогресс – это никому не нужный миф, и вполне хватило бы старых программ?

Невероятно, но факт: «старые» секвенаторы (первого поколения, сэнгеровские) выдают значительно более подходящие для сборки данные, чем «новые» (второго поколения). Это в основном выражается в длине ридов (reads), тех участков ДНК, которые удаётся последовательно прочесть, и которые, собственно, и нужно собрать в одну большую строчку. Секвенаторы первого поколения выдавали риды длиной более пятисот нуклеотидов, обычно около тысячи. Современные секвенаторы выдают пары ридов, каждый из которых имеет длину около ста нуклеотидов.

Зачем же вообще использовать секвенаторы второго поколения, чем они лучше? Причина здесь, как это нередко бывает и в науке, и даже в медицине, чисто экономическая: современные секвенаторы гораздо дешевле. Проект по сборке первого человеческого генома, завершённый в 2003 году, занял 13 лет и стоил 3.8 миллиардов долларов. С тех пор цена секвенирования уменьшалась экспоненциально; «закон Мура в генетике» работает даже быстрее, чем обычный, и уменьшает цену каждые два года почти на порядок, так что когда в 2010 году секвенировали геном самого Гордона Мура, это стоило уже всего лишь около $10 тысяч. Новые технологии секвенирования обещают научиться обрабатывать геном человека за $1000 и даже меньше, что открывает возможности для массового секвенирования в медицинских целях.

На таком уровне становится важной и цена алгоритмической стороны вопроса. Чтобы сборка геномов не занимала дольше и не стоила дороже, чем само их секвенирование, нужно разработать очень быстрые алгоритмы для решения задачи сборки. Об этом пойдет речь в следующей статье.

Литература:

Секвенирование

Секвенирование биополимеров (белков и нуклеиновых кислот — ДНК и РНК) — определение их аминокислотной или нуклеотидной последовательности (от лат. sequentum — последовательность). В результате секвенирования получают формальное описание первичной структуры линейной макромолекулы в виде последовательности мономеров в текстовом виде. Размеры секвенируемых участков ДНК обычно не превышают 100 пар нуклеотидов (next-generation sequencing) и 1000 пар нуклеотидов при секвенировании по Сенгеру. В результате секвенирования перекрывающихся участков ДНК получают последовательности участков генов, целых генов, тотальной мРНК и даже полных геномов организмов.

Для секвенирования применяют методы Эдмана, Сенгера и другие; в настоящее время для секвенирования генов обычно применяют метод Сенгера с дидезоксинуклеозидтрифосфатами (ddNTP). Обычно до начала секвенирования производят амплификацию участка ДНК, последовательность которого требуется определить, при помощи ПЦР. Секвенирование полного генома обычно осуществляют при помощи технологий секвенирования нового поколения (next-generation sequencing).

Секвенирование по Сенгеру

Основная статья: Метод СэнгераУчасток геля, содержащего продукты полимеразной реакции, меченные радиоактивным изотопом. Радиоавтограф

Дидезоксинуклеотидный метод, или метод «обрыва цепи», был разработан Ф. Сенгером в 1977 году и в настоящее время широко используется для определения нуклеотидной последовательности ДНК. При секвенировании по Сенгеру происходит гибридизация синтетического олигонуклеотида длиной 17—20 звеньев со специфическим участком одной из цепей секвенируемого участка. Этот олигонуклеотид является праймером, поставляющим 3′-гидроксильную группу для инициации синтеза цепи, комплементарной матрице.

Раствор с праймером распределяют по четырём пробиркам, в каждой из которых находятся четыре дезоксинуклеотида, dATP, dCTP, dGTP и dTTP (один из них — меченый радиоактивным изотопом) и один из четырёх 2′,3′-дидезоксинуклеотидов (ddATP, ddTTP, ddGTP или ddCTP). Дидезоксинуклеотид включается по всем позициям в смеси растущих цепей, и после его присоединения рост цепи сразу останавливается.

В результате этого в каждой из четырёх пробирок при участии ДНК-полимеразы образуется уникальный набор олигонуклеотидов разной длины, включающих праймерную последовательность. Далее в пробирки добавляют формамид для расхождения цепей и проводят электрофорез в полиакриламидном геле на четырёх дорожках. Проводят радиоавтографию, которая позволяет «прочесть» нуклеотидную последовательность секвенируемого сегмента ДНК.

В более современном варианте дидезоксинуклеотиды метят четырьмя разными флуоресцентными красителями и проводят ПЦР в одной пробирке. Затем во время электрофореза в полиакриламидном геле луч лазера в определённом месте геля возбуждает флуоресценцию красителей, и детектор определяет, какой нуклеотид в настоящий момент мигрирует через гель. Современные приборы используют для секвенирования ДНК капиллярный электрофорез.

> Высокоэффективное секвенирование Основная статья: Методы секвенирования нового поколения

Ссылки

  • Код жизни: прочесть не значит понять
  • UniProt.Protein sequence and functional information.

Разделы «омиксных» данных

Прикладные разделы

Методы

Связанные статьи

Это заготовка статьи по молекулярной биологии. Вы можете помочь проекту, дополнив её.

Организм человека содержит генетическую информацию зашифрованную в молекуле ДНК. Эта генетическая информация определяет как человек будет развиваться и расти. Молекулы ДНК состоит из структурных элементов — нуклеотидов — Аденин(А), Гуанин (Г), Цитозин(Ц), Тимин (Т).

Весь геном человека состоит из более чем трех миллиардов этих нуклеотидов, которые расположены в строго определенной последовательности.

К сожалению, иногда бывает так, что некотоые нуклеотиды исчезают или наоборот удваиваются или заменяются один на другой. Во многих случаях это ведет к неправильному формированию организма. Это может проявляться в виде врожденных пороков или малых аномалий развития, задержке психического развития, аутизме или имеет другие проявления.

Cеквенирование – это тест для определения генетических повреждений (мутаций) в ДНК, которые являются причиной наследственных болезней, наследственных предрасположенностей или особенностией организма.

Определение структуры генома — это непростая задача. Она требует выделения ДНК, специальной ее обработки (фрагментирования, модификации, амплификации) и получение информации на специальном приборе — секвенаторе.

Полногеномное секвенирование дает максимально полный набор данных о структуре генетического материала и позволяет детально оценить все индивидуальные генетические вариации

Секвенатор нового поколения IlluminaNextSeq 500 применяемый для секвенирования может определять полную структуру генома человека. Каждый участок генома при этом прочитывается 30 раз для повышения точности полученных данных.

Что можно получить при полногеномном секвенировании?

  • Мутации никогда не встречавшиеся раньше и расположенные в кодируемых и некодируемых областях генов, регуляторных участках, межгенных областях.
  • Известные мутации расположенные в кодируемых и некодируемых областях генов, регуляторных участках, межгенных областях.
  • Однонуклеотидные полиморфизмы связанные наследуемыми особенностями организма.
  • Небольшие вставки и делеции групп нуклеотидов — от нескольких, до нескольких десятков.

Когда нужно делать секвенирование генома?

  • Секвенирование генома делается в случае подозрения на наследственное заболевание, когда другие молекулярные методы диагностики оказываются неэффективны.
  • Для выявления наследственных предрасположенностей к заболеваниям и индивидуальных особенностей организма.
  • Для выявления носительства мутаций, которые могут быть причиной наследственных заболеваний

Анализ данных

В результате полногеномного секвениования получается огромный объем данных который требует специальной обработки. Такая обработка включает несколько этапов:

  • анализ качества выполнения лабораторной части исследования, определение глубины покрытия, достоверности данных, наличие большх пропущенных участков по которым не удалось получить данные.
  • анализ достоверности выявленных изменений и оценка необходимости их подтверждения другими методами.
  • анализ патогенности выявленных мутаций путем сопоставления найденных мутаций с мутациями, определенными как патогенные в базах данных и научных статьях.
  • анализ патогенности выявленных мутаций путем анализа их влияния на синтез белков.