ДНК, РНК и белки - три типа генетических макромолекул, обеспечивающих функционирование молекулярно-генетических систем организмов. При изучении специфических функций ДНК, РНК и белков важны знания как об их первичной, пространственной структуре, так и особенностей взаимодействий между ними. При решении практически любой задачи молекулярной биологии и генетики исследователь должен иметь одновременный доступ к большому количеству молекулярно- биологических и молекулярно-генетических баз данных, содержащих информацию о различных аспектах структурно-функциональной организации ДНК, РНК и белков. Интернет-интеграция этих баз данных является объективным требованием современного научного процесса миропознания. Распределенность информации по большому количеству молекулярно-генетических баз данных, ее представление в различных форматах, делают проблему интеграции этой информации весьма сложной, как в концептуальном, так и техническом аспектах. Не менее важной задачей является создание программных средств, позволяющих пользователям эффективно решать проблему автоматической продукции молекулярно-биологических и молекулярно-генетических знаний на основе компьютерного анализа информации, накапливаемой в базах данных. Таким образом, одной из наиболее актуальных задач современной биоинформатики является Интернет-интеграция информационных и программных ресурсов по молекулярной биологии и генетике, обеспечивающая широкий набор средств для работы пользователей среди которых необходимо отметить следующие: эффективная навигация по интегрированным Интернет-ресурсам; возможность сложных запросов и поиска информации по большому количеству распределенных баз данных одновременно; возможность осуществления сложных сценариев анализа, требующих использования большого количества различных баз данных и программ; возможность хранения значимых результатов анализа в соответствующих базах знаний и т.д.
Решению этих задач посвящен проект ?Создание интегральной электронной библиотеки по пространственным структурам и функциям ДНК, РНК и белков (в составе электронной библиотеки СО РАН)?, осуществляемый при поддержке гранта РФФИ N 98- 07-91078. При его осуществлении за основу положена разрабатываемая в Лаборатории теоретической генетики ИЦиГ СО РАН компьютерная система ГенЭкспресс.
В имеющейся версии система ?ГенЭкспресс? обеспечивает интеграцию нескольких десятков баз данных, баз знаний и сотен программ для обработки информации по регуляции экспрессии генов. В частности, ?ГенЭкспресс? содержит крупные информационно-программные модули по регуляции транскрипции генов эукариот, активности сайтов, их распознаванию, трансляции эукариотических мРНК, по генным и метаболическим сетям, а также анализу эволюции структуры регуляторных белков. Пользователи имеют возможность Интернет-доступа к ресурсам системы ГенЭкспресс. В качестве базового средства интеграции информационных и программных ресурсов в рамках системы ГенЭкспресс нами используется SRS (Sequence Retrivial System), являющаяся наиболее мощным средством Интернет-интеграции ресурсов по молекулярной биологии. SRS обеспечивает широкие возможности навигации по интегрированным ресурсам с использованием гипертекстовых ссылок.
В рамках системы ?ГенЭкспресс? разрабатываются технологии автоматической и интерактивной продукции знаний о структурно-функциональной организации биологических макромолекул с записью результатов анализа в соответствующие базы знаний. К числу систем продукции знаний, входящих в ?ГенЭкспресс?, относятся B- DNA Video, Activity и ConsFreq, Leader mRNA и некоторые другие. Система. B- DNA Video предназначена для продукции, хранения и использования знаний о конформационных и физико-химических характеристиках ДНК-сайтов, значимых для их функционирования и распознавания. Система Activity обеспечивает продукцию, хранение и использование знаний о контекстных, конформационных и физико- химических особенностях ДНК и РНК-сайтов, значимых для их активности. Система ConsFreq предназначена для продукции и использования знаний о контекстных характеристиках сайтов, значимых для их распознавания. Знания, выявленные в ходе анализа, хранятся в специальных базах знаний.
К числу важнейших модулей системы ГенЭкспресс, относится также (а) база данных (ТРРД), предназначенная для накопления экспериментальных данных о структурно- функциональной организации регуляторных единиц, контролирующих транскрипцию генов эукариот, (б) база данных GenNet, предназначенная для описания генных и метаболических сетей организмов эукариот, (в) система CRASP, предназначенная для анализа семейств выравненных аминокислотных последовательностей и выявления пар скоррелированно эволюционирующих аминокислотных позиций. Фактически, при разработке системы ?ГенЭкспресс? разработаны подходы к интеграции разнообразных информационных и программных ресурсов по молекулярной биологии и генетике.
Заметим, однако, что в имеющемся варианте системы ГенЭкспресс имеются ограниченные информационные и программные ресурсы по пространственным структурам макромолекул. Они представлены компьютерными системами B-DNA-video и ACTIVITY, предназначенными для поиска конформационных параметров ДНК, значимых для распознавания сайтов и предсказания их активности. В частности, эти системы содержат некоторую информацию по конформационным параметрам двойных спиралей ДНК и сведения о пространственных структурах ДНК-белковых комплексов. В связи с этим одним из важнейших направлений развития системы ГенЭкспресс является разработка и интеграция информационных и программных ресурсов по пространственным структурам биологических макромолекул.
Информация о пространственной структуре ДНК, РНК и белков накапливается в Protein Data Bank (PDB). Этот банк данных является единственным в мире официальным источником информации об известных пространственных структурах макромолекул. Имеются версии PDB, как доступые через Интернет, так и распространяемые на электронных носителях. В формате PDB отдельный вход соответствует определенной макромолекуле. Он содержит информацию об аминокислотной последовательности белка (первичной структуре), о вторичной структуре белка (локальной укладке полипептидной цепи в пространстве в виде альфа-спиралей и бета-нитей), о координатах атомов, образующих эту молекулу и множество другой информации.
Основная работа по интеграции PDB в систему ГенЭкспресс будет осуществляться в рамках следующих направлений: трансформация базы данных PDB в формат, обеспечивающий ее интеграцию в систему Генэкспресс и эффективный поиск и доступ к информации; комплектация PDB штатными средствами для визуализации и анализа информации.
Штатными средствами визуализации информации из PDB являются программы RasMol и WebLab Viewer. С их помощью возможна визуализация структуры белков на компьютерах пользователей в виде шаростержневых, ленточных, объемных и других моделей. К числу штатных средств анализа пространственной структуры макромолекул, которые будут интегрированы в систему ГенЭкспресс, относится программа DSSP, которая позволяет производить разметку вторичной структуры белков по координатам атомов третичной структуры, доступную для растворителя поверхность, конформационные углы боковых групп и основной цепи, и т.д.
При решении задач молекулярной биологии требуется получение самых разнообразных характеристик пространственной структуры белков. Однако, с учетом больших объемов информации, накопленной в PDB вычисление любой сложной характеристики требует весьма большого времени (от многих часов до дней или недель расчетов даже на быстродействующих компьютерах).
Обеспечение пользователей информацией о структуре макромолекул в режиме on-line будет осуществляться на основе технологии продукции знаний, успешно апробированной нами при разработке системы ГенЭкспресс. Суть подхода состоит в том, что наиболее трудоемкие этапы анализа данных, требующие больших временных затрат и вычислительных мощностей, применения сложных алгоритмов, осуществляются не пользователями системы ГенЭкспресс, а ее создателями с записью значимых результатов анализа в соответствующие базы знаний. К числу сложных задач анализа, относится, например, расчет доступных растворителю белковых поверхностей, выявление полостей в пространственных структурах белков, оценка их формы и размеров; выявление сходства между пространственными структурами белков и т. д. Каждая из PDB-дочерних баз знаний будет содержать информацию об отдельной особенности белков, хранящихся в PDB. Будет обеспечена интеграция PDB- дочерних баз знаний с базой PDB и навигация по этим интегрированным ресурсам. PDB является ежедневно обновляемой базой данных. С учетом этого планируется динамическое обновление создаваемых PDB-дочерних баз данных.
Важной задачей в рамках проекта будет интеграция PDB с большим количеством комплиментарных ей баз данных, содержащих различную информацию о структурно- функциональной организации ДНК, РНК и белков, которая не накапливается в базе данных PDB (информацию о генных сетях, в составе которых функционируют ДНК, РНК и белки, информацию о первичной и вторичной структуре белков, о локализации различных функциональных сайтов и мотивов в белках, информацию о генах, кодирующих белки, особенностях регуляции экспресии генов, кодирующих белки и т.д. Наличие большого количества PDB-комплементарных баз данных будет обеспечивать принципиально новое качество работы пользователей системы ГенЭкспресс.
Формирование развитой системы гиперссылок при интеграции информационных и программных ресурсов по пространственной структуре белков обеспечит эффективные возможности навигации по PDB, PDB- дочерним базам знаний, PDB- комплементарным базам данных и огромному массиву других баз данных и программных ресурсов, входящих в состав системы ГенЭкспресс.
Другим развиваемым нами направлением будет активация базы данных PDB. Под активацией базы данных PDB понимается создание таких программных средств, которые обеспечат возможность использования информации, содержащейся в PDB, и других ресурсах, интегрированных в систему ГенЭкспресс, в качестве готовых сценариев для автоматического или интерактивного решения содержательных молекулярно-биологических задач из области пространственных структур белков.
Наличие большого количества баз данных, интегрированных в единую информационную систему, разнообразие содержащейся в них информации, и ее большие объемы, требует нетривиальных подходов для решения этой задачи, так как она не может быть осуществлена средствами стандартных языков запросов. Нами разрабатывается объектно-ориентированный язык высокого уровня MGL (Molecular Genetic Language), предназначенный для осуществления запросов и поиска информации в молекулярно- генетических базах данных, входящих в систему ГенЭкспресс или связанных с нею.В рамках проекта будет осуществлено расширение этого языка запросов для поиска информации в PDB и интегрированных с нею ресурсах. Будет также создан МГЛ/CORBA интерфейс для обеспечения возможности одновременной работы с совокупностью распределенных баз данных и программных ресурсов.
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии А.М.Федотов |
[Головная страница] [Конференции] [СО РАН] |
© 1999, Сибирское отделение Российской академии наук, Новосибирск