Вычислительная программа AltES
Ссылка на проект https://github.com/Boguslave/AltES_by_icgbio
Сплайсинг – молекулярный механизм удаления интронов из пре-мРНК после ее синтеза в процессе транскрипции. В результате, в зрелой мРНК остаются кодирующие экзоны, которая потом считывается рибосомальным комплексом, и на ее основе синтезирует белковый продукт. Альтернативный сплайсинг (АС) – механизм, позволяющий оставить в мРНК определенный набор экзонов, служащий для расширения спектра белков одного гена, позволяющий модифицировать его функциональный потенциал. Механизм АС обеспечивает комбинаторный способ выбора экзонов в процессе сплайсинга. АС – широко используемый механизм в процессе работы генов, в особенности генов мозга.
Альтернативный сплайсинг – активно изучаемое явление в процессе синтеза белков. Благодаря ему обеспечивается белковое разнообразие, а также улучшается приспособляемость организмов к различным условиям среды. Нарушения в процессе альтернативного сплайсинга вызывают серьезные отклонения, приводящие к различным болезням, например, cпинальной мышечной атрофии. Изучение закономерностей и законов сплайсинга выявило несколько различных типов сплайсинга, таких как пропуск экзона, взаимоисключающие экзоны, альтернативный донорный сайт, альтернативный акцепторный сайт, удерживание интрона. Кроме того, выявлены зоны с наиболее часто встречающимися событиями. Одной из таких зон является гиппокамп, процессы в котором мы и рассматриваем в нашей работе. В результате регрессионного анализа выборок выдачи rMATs был замечен избыток положительных корреляций между значениями экспрессии отдельных событий пропуска и вставки экзонов внутри гена. Этот феномен был отмечен в работе, однако не исследован подробно. Кроме того, введена и исследована метрика информационной энтропии, однако связи между этой метрикой и феноменом сцепления проведено не было. Нами была написана программа для поиска и оценки взаимосвязи между событиями, а также проанализированы результаты выдачи и составлены модели для описания сложности сплайсинга в генах и оценки вероятностей изоформ.
Исходные данные
Основным источником данных стала база данных NCBI, шесть проектов, три из которых по человеку и три по мыши. Кроме того, еще один проект по человеку был взят из ENA и один проект по крысе из баз ИЦиГ. Ссылки на проекты, а также PMID есть в таблице с данными. Из исходных данных собирались следующие статистики: длина прочтений в проекте, количество и размер выборок.
Пайплайн
Конвейер для данных следующий. С сайта ensemble.org берутся gtf (файлы аннотации) и fasta (файлы прочтений) по всему геному, по ним создается аннотация STAR, по этой аннотации и файлам прочтений из проектов файлов создаются таблицы rmats или cuffnorm, с которыми работает AltES.