Базы данных по транскрипционным регуляторным районам генов 1

Игнатьева Е.В., Подколодная О.А., Ананько Е.А.,
Степаненко И.Л., Меркулова Т.И., Подколодный Н.Л.,
Наумочкин А.Н., Коростышевская И.М.,
Ромащенко А.Г., Колчанов Н.А.

Институт цитологии и генетики СО РАН

Введение

Базы данных транскрипционных регуляторных районов (Transcription Regulatory Regions Database, TRRD) разрабатываются и поддерживаются в Институте цитологии и генетики СО РАН (г.Новосибирск) с 1993. Доступ к ним возможен через Интернет по адресу http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/. В настоящее время TRRD представляет собой семейство из шести баз данных, которые содержат экспериментальную информацию об особенностях структурно-функциональной организации регуляторных районов генов эукариот. Каждый вход в TRRD соответствует отдельному гену и содержит описание таких иерархических уровней регуляции транскрипции как 1) сайты связывания транскрипционных факторов; 2) регуляторные единицы (промоторы, энхансеры, сайленсеры); 3) регуляторные районы (5' 3' регуляторные районы, экзоны, интроны). Описание каждого уровня регуляции может включать как его структурные характеристики (последовательность, локализация), так и функциональные свойства (влияние на транскрипционную активность гена, специфичность функционирования на определенных стадиях клеточного цикла или этапах индивидуального развития, а также в конкретных типах клеток, тканях и органах). Помимо данных о регуляторных районах гена в базу вносятся также описания транскрипционных факторов, использованных в экспериментах по исследованию связывающей способности либо функциональной активности сайтов, паттерны экспрессии генов, а также ссылки на исходные публикации. Подробное описание формата TRRD приведено в [2, 4].

Данные по каждому гену содержатся в шести базах, связанных взаимными ссылками:

TRRDGENES - общее описание гена;

TRRDUNITS - описание регуляторных единиц (промоторов, энхансеров, сайленсеров); TRRDEXP - паттерны экспрессии геновe;

TRRDSITES - сайты связывания транскрипционных факторов;

TRRDFACTORS - транскрипционные факторы;

TRRDBIB - экспериментальные статьи.

Отличительной особенностью TRRD является то, что в ней содержится только информация, подтвержденная специальными экспериментами. Информационные поля ``ExperimentCodes'' баз TRRDSITES и TRRDUNITS содержат цифровые коды типов экспериментов, подтверждающих функциональность сайтов связывания транскрипционных факторов и регуляторных единиц [5]. Пример представления информации в базе TRRDSITES о сайте связывания транскрипционного фактора HNF-4 в регуляторном районе гена аполипопротеина В человека с цифровыми кодами экспериментов представлен на рисунке 1

Figure 1: Описание сайта связывания транскрипционного фактора HNF-4 в регуляторном районе аполипопротеина В человека в базе TRRDSITES. Поле ``ExperimentCodes'' содержит цифровые коды типов экспериментов.
\begin{figure}\begin{center}
\epsfxsize=170mm \epsfysize=70mm
\epsfbox{f1.jpg}
\end{center}\end{figure}


Система визуализации

Визуализация информации из семейства баз TRRD осуществляется с помощью программы ``TRRD-Viewer'', разработанной с использованием jdk 1.2. TRRD-Viewer обеспечивает представление данных по структурной организации регуляторных районов гена в виде карт гена. Пример регуляторной карты человеческого гена аполипопротеина А II представлен на рисунке 2.

Figure 2: Графическая карта гена аполипопротеина А II человека, полученная при помощи программы TRRD-Viewer
\begin{figure}\begin{center}
\epsfxsize=170mm \epsfysize=70mm
\epsfbox{f2.jpg}
\end{center}\end{figure}

Интерфейс вьюера имеет три окна:

1)
навигационное окно;
2)
окно с текстовой информацией и условными обозначениями;
3)
окно с картой регуляторных районов генов.

Подвижные скобки в навигационном окне позволяют задать левую и правую границу района, который будет изображен в нижнем окне. Устанавливая указатель мышки на изображения регуляторных единиц (промоторов, энхансеров, сайленсеров), или сайтов связывания транскрипционных факторов, можно получить всплывающую подсказку с краткой текстовой информацией о них. Изображения регуляторных единиц и сайтов являются гиперссылками к их полным тестовым описаниям в базах TRRDUNITS и TRRDSITES. На рисунке 2 видно, что ген аполипопротеина А II содержит энхансер (-911.-653) промотор (-573/-1) и сайленсер (+28/+206) (длинные отрезки выше шкалы). В этих районах локализованы 24, 19 и 5 сайтов связывания транскрипционных факторов соответственно (короткие отрезки ниже шкалы).


Ввод данных в TRRD

Информация в TRRD заносится экспертами-биологами на основании аннотирования экспериментальных статей. При вводе данных проводится как синтаксический, так и семантический анализ, который осуществляется с использованием оригинальных программ. Программа, TRRD-INPUT [4] позволяет, как вводить новые данные, заранее задавая структуру текстового файла, так и проверять и редактировать ранее созданные текстовые файлы. Программа использует словари, которые по мере пополнения базы пополняются новыми терминами. В настоящее время разработано и поддерживается 22 словаря с общим наполнением более 3,000 терминов. Словари морфологических терминов (органов, типов тканей и клеток), имеют иерархическую организацию. Вторая программа осуществляет проверку согласования информации о позициях сайтов связывания транскрипционных факторов и стартов транскрипции генов с данными из EMBL/GenBank. Кроме того, перед выпуском каждой новой версии базы осуществляется проверка гиперссылок на внешние базы данных.


Динамика развития и информационное содержание

Семество баз данных TRRD регулярно пополняется новой информацией. Рисунок 3 отображает динамику развития TRRD с 1996 года.

Figure 3: Динамика развития TRRD c 1996 года.
\begin{figure}\begin{center}
\epsfxsize=170mm \epsfysize=70mm
\epsfbox{f3.jpg}
\end{center}\end{figure}

Текущая версия TRRD 5.1 включает данные по 1125 генам, 5334 сайтам связывания транскрипционных факторов, 1647 регуляторным единицам (промоторам, энхансерам, сайленсерам). Эта информация внесена на основании аннотирования 3747 научных статей. При развитии TRRD основное внимание направлено на описание генов определенных функциональных систем (табл.1).

Таблица 1. Функционально значимые группы генов, представленные в TRRD

Функциональная группа Раздел TRRD Количество
генов
Гены теплового шока HS-TRRD 91
Гены интерфероновой системы IIG-TRRD 111
Гены, специфически регулируемые в эритроидных клетках ESRG-TRRD 63
Гены липидного метаболизма LM-TRRD 78
Гены эндокринной системы ES-TRRD 115
Гены, регулируемые глюкокортикоидами GR-TRRD 52
Гены растений PLANT-TRRD 136
Гены клеточного цикла CYCLE-TRRD 55
Гены системы редокс-регуляции ROS-TRRD 75



Возможности поиска и анализа данных на основе информации, накопленной в TRRD

В качестве базового программного обеспечения доступа к TRRD через сеть Интернет используется система SRS (Sequence Retrieval System), что дает возможность проводить эффективный поиск не только в TRRD, но и в связанных с ней базах данных. Система гиперссылок объединяет шесть баз информационной системы TRRD между собой, а также с другими информационными и программными модулями GeneExpress-2 (рисунок 4) [3], что позволяет проводить комплексный анализ регуляции экспрессии любого гена из TRRD. TRRD содержит также ссылки на широко известные базы данных SwissProt, EMBL/GenBank, TRANSFAC,COMPEL, EpoDB, и др.

Figure 4: Система гиперссылок между TRRD, информационными и программными модулями системы GeneExpress, а также внешними базами данных.
\begin{figure}\begin{center}
\epsfxsize=170mm \epsfysize=70mm
\epsfbox{f4.jpg}
\end{center}\end{figure}

В TRRD предусмотрена возможность поиска генов через браузеры по названиям генов и видов.

Быстрый доступ к генам из функционально значимых групп, перечисленных выше, возможен через тематические разделы TRRD.

Пользователю представлена возможность анализа нуклеотидной последовательности на предмет гомологии с регуляторными районами генов из TRRD с использованием программы BLAST [1]


Доступ к TRRD через Интернет

Доступ к базе возможен через Интернет по адресу http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/. На главной страничке TRRD (рисунок 5) представлены основные опции доступа и поиска по базе (``SRS access'', ``Browse TRRD'', ``Blast search TRRD database'', ``TRRD sections'').

Figure 5: Главная страница для входа в TRRD через Интернет.
\begin{figure}\begin{center}
\epsfxsize=170mm \epsfysize=70mm
\epsfbox{f5.jpg}
\end{center}\end{figure}

Страница обеспечивает доступ к общей информации о базе (раздел ``General information''), процессе пополнения (раздел ``How is TRRD updated''), руководству для пользователя (раздел ``User's guide''), данных о текущей версии информационной системы TRRD (раздел ``Current TRRD release'').


Заключение

В настоящее время существует большое количество баз данных, содержащих различную информацию о регуляции экспрессии генов эукариот. Уникальность TRRD состоит в том, что в ней одновременно представлена информация, полученная при изучении протяженных регуляторных районов, сайтов связывания транскрипционных факторов, а также особенностей экспрессии различных генов эукариот. Эта информация вводится в базу на основе аннотирования научных статей, описывающих разные типы экспериментов, после чего осуществляется процесс стандартизации и согласования данных. Система TRRD полезна широкому кругу исследователей, работающих в самых разных областях молекулярной биологии, генетики, фармакологии.

Благодарности

Авторы выражают благодарность И.В. Лоховой и Л.В. Катохиной за библиографическую поддержку; Д.А.Григоровичу, Е.В. Максакову, М.А. Позднякову за разработку программного обеспечения; экспертам-биологам О. Е. Беловой, Т.В.Бусыгиной, В.М.Меркулову, Т.Н. Горячковской, В.В.Суслову, С.А.Федоровой, С.С.Ибрагимовой, О.Г.Смирновой, А.Л.Проскура за аннотирование экспериментальных статей.


Bibliography

1
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool.// J. Mol. Biol. 215, 1990, 403-410.

2
Kolchanov,N.A., Ananko,E.A., Podkolodnaya,O.A., Ignatieva,E.V., Stepanenko,I.L., Kel-Margoulis,O.V., Kel,A.E., Merkulova,T.I., Goryachkovskaya,T.N., Busygina,T.V., Kolpakov,F.A., Podkolodny,N.L., Naumochkin,A.N., Romashchenko,A.G. Transcription Regulatory Regions Database (TRRD): its status in 1999. Nucleic Acids Res., 27, 1999, 303-306.

3
Kolchanov N.A., Ponomarenko M.P., Frolov A.S., Ananko E.A., Kolpakov F.A., Ignatieva E.V., Podkolodnaya O.A., Goryachkovskaya T.N., Stepanenko I.L., Merkulova T.I., Babenko V.V., Ponomarenko Y.V., Kochetov A.V., Podkolodny N.L., Vorobiev D.V., Lavryushev S.V., Grigorovich D.A., Kondrakhin Y.V., Milanesi L., Wingender E., Solovyev V., Overton G.C. Integrated databases and computer systems for studying eukaryotic gene expression. // Bioinformatics. 15, 1999, 669-686.

4
Kolchanov N.A., Podkolodnaya O.A., Ananko E.A., Ignatieva E.V., Stepanenko I.L., Kel-Margoulis O.V., Kel A.E., Merkulova T.I., Goryachkovskaya T.N., Busygina T.V., Kolpakov F.A., Podkolodny N.L., Naumochkin A.N., Korostishevskaya I.M., Romashchenko A.G., Overton G.C. Transcription Regulatory Regions Database (TRRD): its status in 2000. // Nucleic Acids Res., 28, 2000, 298-301.

5
Колчанов Н.А., Подколодная О.А., Ананько Е.А., Игнатьева Е.В., Подколодный Н.Л., Меркулов В.М., Степаненко И.Л., Поздняков М.А., Белова О.Е., Григорович Д.А., Наумочкин А.Н. Регуляция транскрипции генов эукариот: описание в базе данных TRRD // Молекулярная биология. (в печати), 2001.


Примечание

... генов 1
Работа получила поддержку программы "Геном человека", Государственного комитета России по науке и технологии, Интеграционного проекта СО РАН и Российского фонда фундаментальных исследований (01-07-90203, 00-04-49229, 00-04-49225, 00-07-90337, 99-07-90203).