IV рабочее совещание по электронным публикациям - EL-PUB-99

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 апреля 1999 года.

Тезисы докладов


Компьютерная система ГЕНЭКСПРЕСС как электронная библиотека по структурам и функциям ДНК, РНК и белков

Колчанов Н.А., Иванисенко В.А., Григорович Д.А., Пономаренко М.П., Фролов А.С., Подколодный Н.Л., Колпаков Ф.А., Куропатов Д.А., Пономаренко Ю.В., Лаврюшев С.В., Кочетов А.В., Ананько Е.А., Фокин О.Н., Подколодная О.А., Игнатьева Е.В., Афонников Д.А.

Институт Цитологии и Генетики СО РАН (Новосибирск)

ДНК, РНК и белки - три типа генетических макромолекул, обеспечивающих функционирование молекулярно-генетических систем организмов. При изучении специфических функций ДНК, РНК и белков важны знания как об их первичной, пространственной структуре, так и особенностей взаимодействий между ними. При решении практически любой задачи молекулярной биологии и генетики исследователь должен иметь одновременный доступ к большому количеству молекулярно- биологических и молекулярно-генетических баз данных, содержащих информацию о различных аспектах структурно-функциональной организации ДНК, РНК и белков. Интернет-интеграция этих баз данных является объективным требованием современного научного процесса миропознания. Распределенность информации по большому количеству молекулярно-генетических баз данных, ее представление в различных форматах, делают проблему интеграции этой информации весьма сложной, как в концептуальном, так и техническом аспектах. Не менее важной задачей является создание программных средств, позволяющих пользователям эффективно решать проблему автоматической продукции молекулярно-биологических и молекулярно-генетических знаний на основе компьютерного анализа информации, накапливаемой в базах данных. Таким образом, одной из наиболее актуальных задач современной биоинформатики является Интернет-интеграция информационных и программных ресурсов по молекулярной биологии и генетике, обеспечивающая широкий набор средств для работы пользователей среди которых необходимо отметить следующие: эффективная навигация по интегрированным Интернет-ресурсам; возможность сложных запросов и поиска информации по большому количеству распределенных баз данных одновременно; возможность осуществления сложных сценариев анализа, требующих использования большого количества различных баз данных и программ; возможность хранения значимых результатов анализа в соответствующих базах знаний и т.д.

Решению этих задач посвящен проект ?Создание интегральной электронной библиотеки по пространственным структурам и функциям ДНК, РНК и белков (в составе электронной библиотеки СО РАН)?, осуществляемый при поддержке гранта РФФИ N 98- 07-91078. При его осуществлении за основу положена разрабатываемая в Лаборатории теоретической генетики ИЦиГ СО РАН компьютерная система ГенЭкспресс.

В имеющейся версии система ?ГенЭкспресс? обеспечивает интеграцию нескольких десятков баз данных, баз знаний и сотен программ для обработки информации по регуляции экспрессии генов. В частности, ?ГенЭкспресс? содержит крупные информационно-программные модули по регуляции транскрипции генов эукариот, активности сайтов, их распознаванию, трансляции эукариотических мРНК, по генным и метаболическим сетям, а также анализу эволюции структуры регуляторных белков. Пользователи имеют возможность Интернет-доступа к ресурсам системы ГенЭкспресс. В качестве базового средства интеграции информационных и программных ресурсов в рамках системы ГенЭкспресс нами используется SRS (Sequence Retrivial System), являющаяся наиболее мощным средством Интернет-интеграции ресурсов по молекулярной биологии. SRS обеспечивает широкие возможности навигации по интегрированным ресурсам с использованием гипертекстовых ссылок.

В рамках системы ?ГенЭкспресс? разрабатываются технологии автоматической и интерактивной продукции знаний о структурно-функциональной организации биологических макромолекул с записью результатов анализа в соответствующие базы знаний. К числу систем продукции знаний, входящих в ?ГенЭкспресс?, относятся B- DNA Video, Activity и ConsFreq, Leader mRNA и некоторые другие. Система. B- DNA Video предназначена для продукции, хранения и использования знаний о конформационных и физико-химических характеристиках ДНК-сайтов, значимых для их функционирования и распознавания. Система Activity обеспечивает продукцию, хранение и использование знаний о контекстных, конформационных и физико- химических особенностях ДНК и РНК-сайтов, значимых для их активности. Система ConsFreq предназначена для продукции и использования знаний о контекстных характеристиках сайтов, значимых для их распознавания. Знания, выявленные в ходе анализа, хранятся в специальных базах знаний.

К числу важнейших модулей системы ГенЭкспресс, относится также (а) база данных (ТРРД), предназначенная для накопления экспериментальных данных о структурно- функциональной организации регуляторных единиц, контролирующих транскрипцию генов эукариот, (б) база данных GenNet, предназначенная для описания генных и метаболических сетей организмов эукариот, (в) система CRASP, предназначенная для анализа семейств выравненных аминокислотных последовательностей и выявления пар скоррелированно эволюционирующих аминокислотных позиций. Фактически, при разработке системы ?ГенЭкспресс? разработаны подходы к интеграции разнообразных информационных и программных ресурсов по молекулярной биологии и генетике.

Заметим, однако, что в имеющемся варианте системы ГенЭкспресс имеются ограниченные информационные и программные ресурсы по пространственным структурам макромолекул. Они представлены компьютерными системами B-DNA-video и ACTIVITY, предназначенными для поиска конформационных параметров ДНК, значимых для распознавания сайтов и предсказания их активности. В частности, эти системы содержат некоторую информацию по конформационным параметрам двойных спиралей ДНК и сведения о пространственных структурах ДНК-белковых комплексов. В связи с этим одним из важнейших направлений развития системы ГенЭкспресс является разработка и интеграция информационных и программных ресурсов по пространственным структурам биологических макромолекул.

Информация о пространственной структуре ДНК, РНК и белков накапливается в Protein Data Bank (PDB). Этот банк данных является единственным в мире официальным источником информации об известных пространственных структурах макромолекул. Имеются версии PDB, как доступые через Интернет, так и распространяемые на электронных носителях. В формате PDB отдельный вход соответствует определенной макромолекуле. Он содержит информацию об аминокислотной последовательности белка (первичной структуре), о вторичной структуре белка (локальной укладке полипептидной цепи в пространстве в виде альфа-спиралей и бета-нитей), о координатах атомов, образующих эту молекулу и множество другой информации.

Основная работа по интеграции PDB в систему ГенЭкспресс будет осуществляться в рамках следующих направлений: трансформация базы данных PDB в формат, обеспечивающий ее интеграцию в систему Генэкспресс и эффективный поиск и доступ к информации; комплектация PDB штатными средствами для визуализации и анализа информации.

Штатными средствами визуализации информации из PDB являются программы RasMol и WebLab Viewer. С их помощью возможна визуализация структуры белков на компьютерах пользователей в виде шаростержневых, ленточных, объемных и других моделей. К числу штатных средств анализа пространственной структуры макромолекул, которые будут интегрированы в систему ГенЭкспресс, относится программа DSSP, которая позволяет производить разметку вторичной структуры белков по координатам атомов третичной структуры, доступную для растворителя поверхность, конформационные углы боковых групп и основной цепи, и т.д.

При решении задач молекулярной биологии требуется получение самых разнообразных характеристик пространственной структуры белков. Однако, с учетом больших объемов информации, накопленной в PDB вычисление любой сложной характеристики требует весьма большого времени (от многих часов до дней или недель расчетов даже на быстродействующих компьютерах).

Обеспечение пользователей информацией о структуре макромолекул в режиме on-line будет осуществляться на основе технологии продукции знаний, успешно апробированной нами при разработке системы ГенЭкспресс. Суть подхода состоит в том, что наиболее трудоемкие этапы анализа данных, требующие больших временных затрат и вычислительных мощностей, применения сложных алгоритмов, осуществляются не пользователями системы ГенЭкспресс, а ее создателями с записью значимых результатов анализа в соответствующие базы знаний. К числу сложных задач анализа, относится, например, расчет доступных растворителю белковых поверхностей, выявление полостей в пространственных структурах белков, оценка их формы и размеров; выявление сходства между пространственными структурами белков и т. д. Каждая из PDB-дочерних баз знаний будет содержать информацию об отдельной особенности белков, хранящихся в PDB. Будет обеспечена интеграция PDB- дочерних баз знаний с базой PDB и навигация по этим интегрированным ресурсам. PDB является ежедневно обновляемой базой данных. С учетом этого планируется динамическое обновление создаваемых PDB-дочерних баз данных.

Важной задачей в рамках проекта будет интеграция PDB с большим количеством комплиментарных ей баз данных, содержащих различную информацию о структурно- функциональной организации ДНК, РНК и белков, которая не накапливается в базе данных PDB (информацию о генных сетях, в составе которых функционируют ДНК, РНК и белки, информацию о первичной и вторичной структуре белков, о локализации различных функциональных сайтов и мотивов в белках, информацию о генах, кодирующих белки, особенностях регуляции экспресии генов, кодирующих белки и т.д. Наличие большого количества PDB-комплементарных баз данных будет обеспечивать принципиально новое качество работы пользователей системы ГенЭкспресс.

Формирование развитой системы гиперссылок при интеграции информационных и программных ресурсов по пространственной структуре белков обеспечит эффективные возможности навигации по PDB, PDB- дочерним базам знаний, PDB- комплементарным базам данных и огромному массиву других баз данных и программных ресурсов, входящих в состав системы ГенЭкспресс.

Другим развиваемым нами направлением будет активация базы данных PDB. Под активацией базы данных PDB понимается создание таких программных средств, которые обеспечат возможность использования информации, содержащейся в PDB, и других ресурсах, интегрированных в систему ГенЭкспресс, в качестве готовых сценариев для автоматического или интерактивного решения содержательных молекулярно-биологических задач из области пространственных структур белков.

Наличие большого количества баз данных, интегрированных в единую информационную систему, разнообразие содержащейся в них информации, и ее большие объемы, требует нетривиальных подходов для решения этой задачи, так как она не может быть осуществлена средствами стандартных языков запросов. Нами разрабатывается объектно-ориентированный язык высокого уровня MGL (Molecular Genetic Language), предназначенный для осуществления запросов и поиска информации в молекулярно- генетических базах данных, входящих в систему ГенЭкспресс или связанных с нею.В рамках проекта будет осуществлено расширение этого языка запросов для поиска информации в PDB и интегрированных с нею ресурсах. Будет также создан МГЛ/CORBA интерфейс для обеспечения возможности одновременной работы с совокупностью распределенных баз данных и программных ресурсов.

Примечание. Тезисы докладов публикуются в авторской редакции



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
А.М.Федотов
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 1999, Сибирское отделение Российской академии наук, Новосибирск