Программный комплекс Orthoscape
Ссылка на веб-ресурс
https://orthoweb.sysbio.cytogen.ru/
Программный модуль «Orthoscape 2» предназначен для анализа эволюционных характеристик генов и генных сетей. Основная функциональность приложения заключается в определении двух эволюционных характеристик:
- Филостратиграфический индекс гена (Phylostratigraphic Age Index, PAI). PAI показывает, насколько сильно от корня филогенетического дерева отдален таксон, отражающий возраст гена, то есть такой таксон, на котором произошло расхождение исследуемого вида с наиболее отдаленным родственным таксоном, в котором обнаружен ортолог рассматриваемого гена. Таким образом, чем больше PAI исследуемого гена, тем он моложе.
- Индекс эволюционной изменчивости гена (Divergence Index, DI). DI показывает тип отбора, которому подвержен ген. Индекс вычисляется на основании отношения dN/dS (по-другому Ka/Ks), где dN – доля несинонимичных замен в последовательностях исследуемого гена и его ортолога, то есть таких замен, которые приводят к смене кодируемой данным триплетом аминокислоты, dS – доля синонимичных замен, то есть не приводящих к замене кодируемой аминокислоты. Значение индекса в диапазоне от 0 до 1 говорит о том, что ген подвержен стабилизирующему отбору, значения, близкие к 1 – нейтральной эволюции, а больше 1 – движущему отбору. В случае, когда последовательность исследуемого гена сравнивается с последовательностью только одного ортолога, то DI в точности равен dN/dS. Если в анализе задействовано несколько ортологов, то DI равен среднему значению dN/dS результатов сравнения с каждым ортологом.
Опционально модуль вычисляет эволюционные характеристики, адаптированные на транскриптомные данные. Это транскриптомный индекс возраста (Transcriptome Age Index, TAI) и транскриптомный индекс изменчивости (Transcriptome Divergence Index, TDI). Данные характеристики вычисляются по следующим формулам:
$$TAI_{s} = \frac{\sum_{i=1}^{n}ps_{i}e_{i}}{\sum_{i=1}^{n}e_{i}} \# (1) $$
\(ps_{i}\) – показатель PAI гена,
\(e_{i}\) – уровень экспрессии гена,
\(n\) – общее число генов в анализе,
Чем выше индекс, тем моложе транскриптом.
$$TDI_{s} = \frac{\sum_{i=1}^{n} \frac{k_{a_i}}{k_{s_i}} e_{i} }{\sum_{i=1}^{n}e_{i}} \# (2)$$
\(k_{a_i}\) – доля несинонимичных замен,
\(k_{s_i}\) – доля синонимичных замен,
\(n\) – общее число генов в анализе,
Чем выше индекс, тем менее консервативен транскриптом.
Основная функциональность модуля реализована в двух подмодулях – по анализу списков генов и по импорту и анализу генных сетей.
Описание входных данных
Анализ списков генов, не объединенных в сеть
На вход предоставляется список идентификаторов генов, для которых необходимо провести анализ, а также файл указанием следующих параметров.
- Принцип отбора ортологичных генов. Возможны варианты: (1) ортологичные гены выбираются на основании данных, полученных на основе ортологичных групп KEGG (KEGG Orthology, KO); (2) использование таблицы сходства последовательностей (Best Similarity Table). Если выбраны ортологи с помощью KO групп, то доступна фильтрация по наименованию гена, чтобы исключить из КО-групп паралогичные гены. Тогда входящие в КО-группу гены будут также проверяться на совпадение наименования генов. Если пользователь ортологи отбираются с помощью таблиц сходства, то требуется предоставить минимальные значения таких параметров, как сходство аминокислотных последовательностей кодируемых генами белков и результат работы алгоритма Смита-Ватермана по локальному выравниванию последовательностей. В таком случае, будут отобраны только ортологи, лучше всего подходящие по предоставленным параметрам (по 1 гену на организм).
- Таксономическая глубина для определения эволюционной изменчивости гена по сравнению с ортологами близкородственных организмов. Чем больше этот параметр, тем более отдаленные организмы мы включаем в анализ. Можно указать конкретный набор организмов для сравнения последовательностей исследуемого гена.
- Дополнительные режимы анализа. Доступны: DI-анализ, анализ ассоциированных терминов генной онтологии и анализ обогащённости SNP.
Анализ генных сетей
На вход подаются генные сети, импортированные из баз данных KEGG Pathway и WikiPathway (необходимо указать код метаболического пути и организм, для которого будет импортирована сеть). Доступен анализ сетей, импортированных из текстового файла.
Описание выходных данных:
Анализ списков генов, не объединенных в сеть
Выходные данные включают в себя:
- Текстовый файл, включающий в себя таблицу со всеми посчитанными характеристиками;
- Графический файл – гистограмму распределения PAI.
Анализ генных сетей
Графический файл, содержащий генную сеть, покрашенную в соответствии со значением PAI или DI, определенными на основании представленных в сети.