Программный комплекс Orthoscape


Ссылка на веб-ресурс

https://orthoweb.sysbio.cytogen.ru/


Программный модуль «Orthoscape 2» предназначен для анализа эволюционных характеристик генов и генных сетей. Основная функциональность приложения заключается в определении двух эволюционных характеристик:

  1. Филостратиграфический индекс гена (Phylostratigraphic Age Index, PAI). PAI показывает, насколько сильно от корня филогенетического дерева отдален таксон, отражающий возраст гена, то есть такой таксон, на котором произошло расхождение исследуемого вида с наиболее отдаленным родственным таксоном, в котором обнаружен ортолог рассматриваемого гена. Таким образом, чем больше PAI исследуемого гена, тем он моложе.
  2. Индекс эволюционной изменчивости гена (Divergence Index, DI). DI показывает тип отбора, которому подвержен ген. Индекс вычисляется на основании отношения dN/dS (по-другому Ka/Ks), где dN – доля несинонимичных замен в последовательностях исследуемого гена и его ортолога, то есть таких замен, которые приводят к смене кодируемой данным триплетом аминокислоты, dS – доля синонимичных замен, то есть не приводящих к замене кодируемой аминокислоты. Значение индекса в диапазоне от 0 до 1 говорит о том, что ген подвержен стабилизирующему отбору, значения, близкие к 1 – нейтральной эволюции, а больше 1 – движущему отбору. В случае, когда последовательность исследуемого гена сравнивается с последовательностью только одного ортолога, то DI в точности равен dN/dS. Если в анализе задействовано несколько ортологов, то DI равен среднему значению dN/dS результатов сравнения с каждым ортологом.

Опционально модуль вычисляет эволюционные характеристики, адаптированные на транскриптомные данные. Это транскриптомный индекс возраста (Transcriptome Age Index, TAI) и транскриптомный индекс изменчивости (Transcriptome Divergence Index, TDI). Данные характеристики вычисляются по следующим формулам:

$$TAI_{s} = \frac{\sum_{i=1}^{n}ps_{i}e_{i}}{\sum_{i=1}^{n}e_{i}} \# (1) $$

\(ps_{i}\) – показатель PAI гена,

\(e_{i}\) – уровень экспрессии гена,

\(n\) – общее число генов в анализе,

Чем выше индекс, тем моложе транскриптом.

$$TDI_{s} = \frac{\sum_{i=1}^{n} \frac{k_{a_i}}{k_{s_i}} e_{i} }{\sum_{i=1}^{n}e_{i}} \# (2)$$

\(k_{a_i}\) – доля несинонимичных замен,

\(k_{s_i}\) – доля синонимичных замен,

\(n\) – общее число генов в анализе,

Чем выше индекс, тем менее консервативен транскриптом.

Основная функциональность модуля реализована в двух подмодулях – по анализу списков генов и по импорту и анализу генных сетей.

Описание входных данных

Анализ списков генов, не объединенных в сеть

На вход предоставляется список идентификаторов генов, для которых необходимо провести анализ, а также файл указанием следующих параметров.

  1. Принцип отбора ортологичных генов. Возможны варианты: (1) ортологичные гены выбираются на основании данных, полученных на основе ортологичных групп KEGG (KEGG Orthology, KO); (2) использование таблицы сходства последовательностей (Best Similarity Table). Если выбраны ортологи с помощью KO групп, то доступна фильтрация по наименованию гена, чтобы исключить из КО-групп паралогичные гены. Тогда входящие в КО-группу гены будут также проверяться на совпадение наименования генов. Если пользователь ортологи отбираются с помощью таблиц сходства, то требуется предоставить минимальные значения таких параметров, как сходство аминокислотных последовательностей кодируемых генами белков и результат работы алгоритма Смита-Ватермана по локальному выравниванию последовательностей. В таком случае, будут отобраны только ортологи, лучше всего подходящие по предоставленным параметрам (по 1 гену на организм).
  2. Таксономическая глубина для определения эволюционной изменчивости гена по сравнению с ортологами близкородственных организмов. Чем больше этот параметр, тем более отдаленные организмы мы включаем в анализ. Можно указать конкретный набор организмов для сравнения последовательностей исследуемого гена.
  3. Дополнительные режимы анализа. Доступны: DI-анализ, анализ ассоциированных терминов генной онтологии и анализ обогащённости SNP.

Анализ генных сетей

На вход подаются генные сети, импортированные из баз данных KEGG Pathway и WikiPathway (необходимо указать код метаболического пути и организм, для которого будет импортирована сеть). Доступен анализ сетей, импортированных из текстового файла.

Описание выходных данных:

Анализ списков генов, не объединенных в сеть

Выходные данные включают в себя:

  1. Текстовый файл, включающий в себя таблицу со всеми посчитанными характеристиками;
  2. Графический файл – гистограмму распределения PAI.

Анализ генных сетей

Графический файл, содержащий генную сеть, покрашенную в соответствии со значением PAI или DI, определенными на основании представленных в сети.


Ссылка на плагин Cytoscape App Store

https://apps.cytoscape.org/apps/orthoscape