Анализ
ДНК--последовательностей при помощи аппарата Марковских цепей
Усоцкая Н.С.
Новосибирский государственный университет
usotskaya@gmail.com
Аннотация
Статистическая
структура последовательности ДНК представляет значительный интерес для
молекулярной биологии, генетики и теории эволюции (см. [1] ─ [5]). Один из подходов к исследованию последовательностей
ДНК состоит в их описании Марковскими процессами с различной памятью и
последующим статистическим оцениванием параметров ([2], [5]). В данной
работе проводятся оценки "памяти" (или связности) генетических
текстов, используя недавно предложенный в [6] алгоритм для проверки гипотез.
Введение
Проблема
исследования статистической структуры ДНК стала особенно актуальной после
накопления больших объемов данных при секвенцировании
геномов различных организмов. Был разработан ряд подходов к статистическому
анализу генетических текстов. В настоящее время в разностороннем исследовании
структуры ДНК заинтересованы молекулярная биология, генетика, теория эволюции,
фармакология и другие отрасли. Данная тематика привлекает внимание многих
исследователей во всем мире, ей посвящены ряд работ (например, [1] ─ [5]), кроме того, издаются специализированные журналы,
такие как Bioinformatics
(http://bioinformatics.oxfordjournals.org/). Одним из самых популярных являлось
описание последовательностей ДНК при помощи Марковских процессов различной
памяти (см. [1], [2]).
Мы развили данный подход, используя предложенный в [3]
тест, позволяющий оценить "память" источника, породившего некоторую
последовательность над конечным алфавитом. Оценки "памяти"
представляют интерес, так как позволяют определить глубину взаимозависимости
между символами в последовательности. В [4] упомянут ряд предположений о
возможной глубине зависимости между символами в последовательностях ДНК,
которые варьировались от 3-6 оснований до 1-10000 оснований. То есть вопрос о
глубине зависимости для последовательностей ДНК не был решен однозначно.
Возможно, поэтому до сих пор попытки моделировать генетические тексты
основывались на Марковских моделях порядка не выше 2 ([1], [2]).
В результате проведенных экспериментов выяснилось, что
"память" рассмотренных организмов в основном превосходит значение 2,
поэтому для корректного моделирования последовательностей ДНК необходимо
выбирать Марковские процессы более высокого порядка, которые позволяют
"уловить" более тонкие закономерности в генетических текстах
различных организмов.
1. Оценка "памяти" источника
Данный
раздел посвящен краткому описанию предложенного в [Ryabko]
теста сериальной независимости для
проверки гипотез, который в дальнейшем будет использоваться для оценки
"памяти" генетических текстов различных живых организмов.
Данный тест анализирует
последовательности символов над конечным алфавитом, причем предполагается, что
последовательности были порождены Марковским процессом конечной памяти с
дискретным временем. Другими словами, предполагается, что для Марковского
источника порядка m
вероятность порождения следующего символа (a) зависит только от m предыдущих элементов последовательности, то есть:
Тест
из [6] использует некоторый универсальный код (или метод
сжатия данных), который необходимо выбрать до начала экспериментов. В качестве
такого универсального кода может служить один из стандартных методов сжатия
данных (так называемые архиваторы).
Приведем формальное описание теста
сериальной независимости.
Пусть
образец X для анализа представлен r последовательностями порожденными
неизвестным источником, и пусть
Пусть
φ -
некоторый однозначно декодируемый код, то есть метод сжатия данных без потери
информации (в качестве такого универсального кода может быть рассмотрен любой
стандартный архиватор). Кроме того, обозначает
эмпирическую энтропию Шеннона порядка m:
где а обозначает количество вхождений подслова v в
слово xi.
Проверяется основная гипотеза ,
утверждающая, что источник, породивший данный образец X, является Марковский, причем порядок источника не превышает m, (m ≥0).
Альтернативная гипотеза утверждает,
что образец X порожден стационарным и эргодическим источником, чей порядок
больше m.
Используя приведенные обозначения, тест формулируется
следующим образом:
гипотеза
принимается,
если:
где α из (0, 1) ─
требуемый уровень значимости. В противном случае принимается гипотеза .
В [6] было
доказано, что для любого кода φ ошибка первого рода
не
превосходит α, а для универсального
кода φ
ошибка второго рода стремится к нулю при t, стремящемся к бесконечности.
Приведенный тест на сериальную
независимость будет использоваться в следующем разделе для оценивания
"памяти" генетических текстов различных организмов.
2. Экспериментальное исследование
генетических текстов
В
данном разделе будут представлены результаты экспериментов, проведенных для
анализа последовательностей ДНК ряда живых организмов. В качестве инструмента
анализа использовался статистический тест из [6], рассмотренный в предыдущем разделе.
2.1 Основные понятия генетики
Прежде
чем перейти к рассмотрению проблем молекулярной биологии, связанных с анализом
последовательностей ДНК, рассмотрим основные биологические понятия, которые
будут использоваться в дальнейшем.
Как известно, ДНК любого организма содержит генетическую информацию о нем. Молекула ДНК представляет
собой длинную двойную спираль нуклеотидов, каждый из которых состоит из дезоксирибозы, фосфатной группы и одного из четырех
азотистых оснований ─ аденин (A), цитозин (C), гуанин (G) и тимин
(T). Таким образом, последовательность ДНК можно
рассматривать как порожденную некоторым источником с четырехбуквенным алфавитом
─ {A, C, G, T} (см., например, [8]
Далее последовательности ДНК "разбиваются" на
триплеты ─ тройки символов, которые носят название кодоны (см., например, [8]).
Кодон ─ это единица генетического кода, тройка нуклеотидных оснований в
ДНК или РНК, кодирующих включение одной аминокислоты. В свою очередь
последовательности кодонов формируют гены.
Гены ─ это участки ДНК, несущие какую-либо
целостную информацию ─ о строении одной молекулы белка или одной молекулы
РНК. Последовательность кодонов в гене определяет последовательность
аминокислот в цепи белка, кодируемого данным геном.
2.2 Экспериментальное исследование
"памяти" генетических текстов
В [3] упомянут ряд работ, в которых высказывались
предположения о том, насколько длинными могут быть зависимости между символами
в последовательностях ДНК. Предположения о порядке зависимости сильно
варьировался по количеству оснований. Возможно, именно поэтому для
моделирования последовательностей ДНК до сих пор обычно используются Марковские
процессы низкого порядка ─ нулевого, первого или второго (см., например, [2], [5]). С целью оценить "память" генетических
текстов нами был проведен ряд экспериментов с использованием статистического
теста для проверки гипотез, рассмотренного в разделе 1.
Проведенный анализ позволил впервые получить ряд
данных, ранее не известных. В частности, оказалось, что значение
"памяти" сильно варьируется даже у биологически близких организмов, и
лежит в пределах от 2 до 9 для рассмотренных генетических текстов.
Для исследования "памяти" генетических текстов
различных видов был рассмотрен ряд прокариотов. Прокариоты ─ это надцарство одноклеточных живых организмов, не обладающих
оформленным клеточным ядром. К прокариотам относят царства
бактерий
и архебактерий.
Среди них рассматривались геномы 38 архебактерий и 43 бактерии (в том числе рассматривались все
хромосомы, если таковые имелись). Все рассмотренные последовательности ДНК были
взяты из базы данных [9].
Результаты расчетов для архебактерий
представлены в таблице 1, а для бактерий ─ в таблице 2.
Таблицы 1 ─ 2 составлены единообразно. В колонке
"Название" приведено латинское наименование организма. Графа "Chr" указывает на номер рассматриваемой хромосомы,
если таковая имеется. Колонка "Длина" содержит количество нуклеотидов
в цепочке ДНК. В колонке "Количество генов" содержится количество
различных генов в рассматриваемой последовательности ДНК (данные взяты из [9]). В колонке "Память" находятся результаты
оценки "памяти" генетических текстов представленных организмов на
основе тестов из [6].
Предварительный анализ позволил
предположить, что длина генетических текстов и количество генов статистически
связаны с "памятью" последовательностей ДНК, определенной тестом на
сериальную независимость. Для
проверки этой гипотезы были посчитаны коэффициенты корреляции между парами
выборок данных:
·
между
"памятью" и длиной последовательности ДНК,
·
между
"памятью" и количеством генов.
В
результате получены следующие коэффициенты корреляции:
Вид
организмов |
"Память"
и длина |
"Память"
и количество генов |
Архебактерии |
0.63 |
0.53 |
Бактерии |
0.37 |
0.35 |
Таким образом, мы видим, что характеристика
"памяти" генетических текстов представляет собой самостоятельный
биологический интерес, поскольку корреляция ее со стандартными параметрами
последовательностей ДНК существует, но модуль ее не близок к нулю или единице.
Следовательно, характеристика "памяти" генетических текстов может
предоставить новую информацию о структуре ДНК.
Отметим и тот неожиданный факт, что
"память" последовательности ДНК, даже для биологически близких огранизмов (принадлежащих одному роду) может существенно
отличаться. В качестве
примера приведем архебактерии
рода Sulfolobus
и бактерии рода Bordetella.
Археобактерий Sulfolobus acidocaldarius DSM 639, Sulfolobus solfataricus P2 и Sulfolobus tokodaii str. 7
имеют сопоставимую длину генома ─ от 2.1 до 2.8 Мб, однако определенная
тестом "память" существенно отличается ─ 3, 9 и 7
соответственно. Что касается бактерий Bordetella bronchiseptica, Bordetella parapertussis и Bordetella pertussis, то размер генома в данном случае варьируется
от 4 до 5.3 Мб, а определенная тестом "память" имеет значения 3, 4 и
8 соответственно, причем самая большая память (8) определена для самого
короткого генома ─ Bordetella pertussis. Таким
образом, приведенные примеры показывают, что "глубина
взаимозависимости" между символами в последовательностях ДНК может
существенно варьироваться для близких видов.
Можно сделать вывод, что данный метод определения
"памяти" генетического текста может помочь при выборе корректной
модели при моделировании последовательностей ДНК, поскольку, согласно
результатам теста сериальной независимости, "память" генетических
текстов обычно больше, чем 2. Тогда как обычно при моделировании генетических
текстов используют Марковские модели низкого порядка.
Список литературы
[1] Chen X., Kwong S.,
Li M. A
Compression Algorithm for DNA Sequences and Its Applications in Genome
Comparison // In Proceedings of the 10th Workshop on Genome Informatics
(GIW-99), 1999. P. 51─61.
[2] Farach M., Noordewier M., Savari S., Shepp L., Wyner A., Ziv A. On the entropy
of DNA: Algorithms and measurements based on memory and rapid convergence
// Proceedings of the Sixth Annual ACM-SIAM Symposium on Discrete Algorithms,
1994. P. 48─57.
[3] Li W. The Study of Correlation Structures of DNA
Sequences: A Critical Review // Computers and Chemistry, 1997. Vol. 21, № 4. P. 257─271.
[4] Oprea I., Pasca S., Gavrila V. Method of DNA Analysis Using the Estimation
of the Algorithmic Complexity // Leonardo Electronic Journal of Practices
and Technologies, 2004. Vol. 3, № 5. P. 53─66.
[5] Simons G., Yao
Y-Ch., Morton G. Global Markov models for
eukaryote nucleotide data // Journal of Statistical Planning and Inference,
2005. Vol. 130.
P. 251─275.
[6] Ryabko B., Astola J. Universal
codes as a basis for time series testing // Statistical Methodology, 2006. Vol. 3. P. 375─397.
[7] Karp R.M. Mathematical Challenges from Genomics and Molecular Biology // Notices
of the AMS, 2002. Vol. 49, № 5. P.
544─553.
[8] Боринская С.А., Гельфанд М.С., Миронов А.А. Компьютерная геномика ─ новая эра // Российская наука на заре
нового века: Сб. науч.-поп. ст., М.: Научный мир, 2001. С. 249─255.
[9]
Таблица 1. Результаты оценивания "памяти" для архебактерий
№ |
Название |
Chr |
Длина |
Кол-во генов |
Память |
1 |
Aeropyrum pernix K1 |
|
1669696 |
1752 |
3 |
2 |
Archaeoglobus fulgidus |
|
2178400 |
2486 |
3 |
3 |
Haloarcula marismortui ATCC 43049 |
I |
3131724 |
3186 |
3 |
4 |
II |
288050 |
285 |
4 |
|
5 |
Halobacterium sp. NRC-1 |
|
2014239 |
2127 |
3 |
6 |
Haloquadratum walsbyi DSM 16790 |
|
3132494 |
2875 |
7 |
7 |
Hyperthermus butylicus DSM 5456 |
|
1667163 |
1672 |
3 |
8 |
Metallosphaera sedula DSM 5348 |
|
2191517 |
2341 |
3 |
9 |
Methanocaldococcus jannaschii DSM
2661 |
|
1664970 |
1772 |
3 |
10 |
Methanococcoides burtonii DSM 6242 |
|
2575032 |
2497 |
8 |
11 |
Methanococcus maripaludis C5 |
|
1780761 |
1880 |
6 |
12 |
Methanococcus maripaludis S2 |
|
1661137 |
1772 |
5 |
13 |
Methanocorpusculum labreanum Z |
|
1804962 |
1819 |
6 |
14 |
Methanoculleus marisnigri JR1 |
|
2478101 |
2555 |
4 |
15 |
Methanopyrus kandleri AV19 |
|
1694969 |
1729 |
3 |
16 |
Methanosaeta thermophila PT |
|
1879471 |
1781 |
7 |
17 |
Methanosarcina barkeri str. Fusaro |
|
4837408 |
3811 |
9 |
18 |
Methanosarcina mazei Go1 |
|
4096345 |
3436 |
8 |
19 |
Methanosarcina acetivorans C2A |
|
5751492 |
4721 |
9 |
20 |
Methanosphaera stadtmanae DSM
3091 |
|
1767403 |
1588 |
7 |
21 |
Methanospirillum hungatei JF-1 |
|
3544738 |
3304 |
8 |
22 |
Nanoarchaeum equitans Kin4-M |
|
490885 |
582 |
3 |
23 |
Natronomonas pharaonis DSM 2160 |
|
2595221 |
2726 |
3 |
24 |
Picrophilus torridus DSM 9790 |
|
1545895 |
1581 |
3 |
25 |
Pyrobaculum aerophilum str. IM2 |
|
2222430 |
2706 |
3 |
26 |
Pyrobaculum arsenaticum DSM
13514 |
|
2121076 |
2407 |
3 |
27 |
Pyrobaculum calidifontis JCM
11548 |
|
2009313 |
2200 |
3 |
28 |
Pyrobaculum islandicum DSM
4184 |
|
1826402 |
2062 |
5 |
29 |
Pyrococcus abyssi |
|
1765118 |
1993 |
3 |
30 |
Pyrococcus furiosus DSM 3638 |
|
1908256 |
2228 |
6 |
31 |
Pyrococcus horikoshii OT3 |
|
1738505 |
2005 |
3 |
32 |
Staphylothermus marinus F1 |
|
1570485 |
1646 |
3 |
33 |
Sulfolobus acidocaldarius DSM
639 |
|
2225959 |
2329 |
3 |
34 |
Sulfolobus solfataricus P2 |
|
2992245 |
3031 |
9 |
35 |
Sulfolobus tokodaii str. 7 |
|
2694756 |
2874 |
7 |
36 |
Thermococcus kodakarensis KOD1 |
|
2088737 |
2358 |
3 |
37 |
Thermofilum pendens Hrk 5 |
|
1781889 |
1879 |
3 |
38 |
Thermoplasma acidophilum DSM
1728 |
|
1564906 |
1530 |
3 |
39 |
Thermoplasma volcanium GSS1 |
|
1584804 |
1548 |
6 |
Таблица 2. Результаты оценивания "памяти" для бактерий
№ |
Название |
Chr |
Длина |
Кол-во генов |
Память |
1 |
Acidobacteria bacterium Ellin345 |
|
5650368 |
4834 |
4 |
2 |
Acidothermus cellulolyticus 11B |
|
2443540 |
2217 |
3 |
3 |
Anaplasma marginale St Maries |
|
1197687 |
1005 |
8 |
4 |
Anaplasma phagocytophilum HZ |
|
1471282 |
1411 |
8 |
5 |
Aquifex aeolicus |
|
1551335 |
1580 |
3 |
6 |
Bacillus anthracis Ames |
|
5227293 |
5630 |
7 |
7 |
Bacillus anthracis str Sterne |
|
5228663 |
5415 |
7 |
8 |
Bacillus cereus ATCC 10987 |
|
5224283 |
5772 |
8 |
9 |
Bacillus cereus ATCC 14579 |
|
5411809 |
5476 |
8 |
10 |
Bacillus cereus ZK |
|
5300915 |
5269 |
8 |
11 |
Bacillus clausii KSM-K16 |
|
4303871 |
4204 |
7 |
12 |
Bacillus halodurans |
|
4202352 |
4171 |
9 |
13 |
Bacillus licheniformis ATCC 14580 |
|
4222334 |
4290 |
7 |
14 |
Bacillus thuringiensis Al Hakam |
|
5257091 |
4883 |
8 |
15 |
Bacillus thuringiensis konkukian |
|
5237682 |
5261 |
8 |
16 |
Bacteroides fragilis NCTC 9434 |
|
5205140 |
4347 |
7 |
17 |
Bacteroides fragilis YCH46 |
|
5277274 |
4670 |
7 |
18 |
Bacteroides thetaiotaomicron VPI-5482 |
|
6260361 |
4864 |
8 |
19 |
Bartonella bacilliformis KC583 |
|
1445021 |
1375 |
8 |
20 |
Bartonella henselae Houston-1 |
|
1931047 |
1665 |
8 |
21 |
Bartonella quintana Toulouse |
|
1581384 |
1356 |
8 |
22 |
Baumannia cicadellinicola Homalodisca coagulata |
|
686194 |
651 |
2 |
23 |
Bdellovibrio bacteriovorus |
|
3782950 |
3623 |
3 |
24 |
Bifidobacterium adolescentis ATCC 15703 |
|
2089645 |
1700 |
6 |
25 |
Bifidobacterium longum |
|
2256640 |
1798 |
6 |
26 |
Bordetella bronchiseptica |
|
5339179 |
5072 |
3 |
27 |
Bordetella parapertussis |
|
4773551 |
4467 |
4 |
28 |
Bordetella pertussis |
|
4086189 |
3867 |
8 |
29 |
Borrelia afzelii PKo |
|
905394 |
894 |
6 |
30 |
Borrelia burgdorferi |
|
910724 |
875 |
6 |
31 |
Borrelia garinii PBi |
|
904246 |
869 |
6 |
32 |
Bradyrhizobium ORS278 |
|
7456587 |
6818 |
4 |
33 |
Brucella abortus 9-941 |
I |
2124241 |
2200 |
4 |
34 |
II |
1162204 |
1156 |
3 |
|
35 |
Brucella melitensis |
I |
2117144 |
2107 |
4 |
36 |
II |
1177787 |
1157 |
3 |
|
37 |
Brucella melitensis biovar Abortus |
I |
2121359 |
2236 |
4 |
38 |
|
II |
1156948 |
1182 |
3 |
39 |
Brucella suis 1330 |
I |
2107794 |
2231 |
4 |
40 |
II |
1207381 |
1220 |
3 |
|
41 |
Buchnera aphidicola Cc Cinara cedri |
|
416380 |
397 |
3 |
42 |
Buchnera aphidicola Sg |
|
641454 |
619 |
2 |
43 |
Buchnera aphidicola str. Bp |
|
615980 |
550 |
3 |
44 |
Buchnera sp |
|
640681 |
607 |
2 |
45 |
Burkholderia mallei NCTC 10229 |
I |
2284095 |
2215 |
7 |
46 |
II |
3458208 |
3409 |
7 |
|
47 |
Burkholderia mallei NCTC 10247 |
I |
2352693 |
2412 |
7 |
48 |
II |
3495678 |
3553 |
8 |
|
49 |
Burkholderia mallei SAVP1 |
I |
1734922 |
1763 |
7 |
50 |
II |
3497479 |
3532 |
7 |
|
52 |
Helicobacter pylori 26695 |
|
1667867 |
1630 |
6 |
53 |
Helicobacter pylori J99 |
|
1643831 |
1535 |
4 |
54 |
Staphylococcus aureus RF122 |
|
2742531 |
2665 |
8 |
55 |
Staphylococcus epidermidis ATCC 12228 |
|
2499279 |
2495 |
8 |
56 |
Staphylococcus haemolyticus JCSC1435 |
|
2685031 |
2753 |
8 |
57 |
Streptococcus agalactiae A909 |
|
2127858 |
2136 |
8 |
58 |
Streptococcus pyogenes M1 GAS SF370 |
|
1852455 |
1805 |
7 |
59 |
Streptococcus pyogenes MGAS315 |
|
1900535 |
1951 |
8 |
60 |
Streptococcus thermophilus LMG 18311 |
|
1796846 |
1974 |
8 |