Программа InterTransViewer
Ссылка на репозиторий
https://gitea.sysbio.ru/mukhin/InterTransViewer
Программа предназначена для сравнительного описания профилей дифференциальной экспрессии генов из разных экспериментов. Она последовательно вычисляет и визуализирует следующие характеристики.
- Характеристики отдельных профилей дифференциальной экспрессии генов: n – количество дифференциально экспрессирующихся генов (ДЭГ) в каждом наборе данных; δ – долю специфических (уникальных) ДЭГ в каждом наборе данных; R – отношение доли специфических ДЭГ к доле генов, идентифицированных как ДЭГ хотя бы в одном списке. Вычисленные показатели визуализируются в виде зеркальных гистограмм.
- Индекс сходства (I) по составу ДЭГ для каждой пары экспериментов, который отражает долю общих ДЭГ в меньшем из двух списков. Матрицы попарного сходства списков ДЭГ визуализируются в виде тепловой карты.
- Оценка сходства между результатами экспериментов на основании иерархической кластеризации. Результаты визуализируются в виде дендрограммы.
- Количественная оценка однородности профилей ДЭГ, вычисляемая на основании ресемплинга. Визуализируется в виде диаграм.
Описание входных данных:
На вход подается таблица в формате .csv, в которой первый столбец содержит одну группирующую переменную (идентификаторы генов, ID), каждая следующая пара столбцов содержат log2-трансформированные значения изменений уровней экспрессии генов (logFC) и соответствующие им скорректированные значения p-value (p-adjusted) для одного отдельного эксперимента. Такая таблица может быть собрана с использованием функции программы InterTransViewer ‘DEGweave’ для слияния результатов, ранее сгенерированных функцией topTable limma или функцией results пакета DESeq2 для данных микрочипов и RNA-seq соответственно.
Описание выходных данных:
- Таблица в формате .csv, содержащая список ДЭГ для заданного порового значения p-adj и logFC (для каждого эксперимента).
- Таблица в формате .csv, содержащая список эксперимент-специфичных ДЭГ с указанием logFC и p-adj (для каждого эксперимента).
- Таблица в формате .csv, содержащая общий список генов, которые являются ДЭГ хотя бы в одном эксперименте с указанием количества экспериментов, в которых ген является ДЭГ.
- Сводная таблица в формате .csv, сгенерированная функцией DEGsummary.
- Соответствующие гистограммы.
- Матрица попарного сходства экспериментов в формате .csv, построенная на основании индекса сходства I.
- Тепловая карта в формате .png, визуализирующая попарное сходство экспериментов.
- Результаты кластеризации транскриптомов в виде дендрограммы в формате .png.
- Таблица в формате .csv, содержащая результаты оценки однородности наборов профилей ДЭГ методом ресемплинга.
- Диаграммы, визуализирующие результаты оценки однородности наборов профилей ДЭГ методом ресемплинга, в формате .png.
Комментарии к работе модуля:
Входные данные. Пользователь может подать на вход таблицу, самостоятельно подготовленную в соответствии с требованиями программы, или использовать для ее сборки функцию программы InterTransViewer ‘DEGweave’, которая осуществляет слияние результатов, генерируемых в процессе предобработки данных функцией topTable limma или функцией results пакета DESeq2 для данных микрочипов и RNA-seq, соответственно.
Характеристики отдельных профилей дифференциальной экспрессии. Для каждого индивидуального списка ДЭГ оценивается (1) количество ДЭГ (n), (2) долю ДЭГ, специфичных для данного списка (δ), а также (3) отношение доли специфических ДЭГ к доле ДЭГ данного списка среди генов, идентифицированных как ДЭГ хотя бы в одном из анализируемых списков (R). Вычисленные показатели графически представляются в виде зеркальных гистограмм. Они в совокупности с метаданными экспериментов позволяют в первом приближении оценить сходство списков и определить потенциальные выбросы. Например, слишком малое/большое количество ДЭГ или высокое значение R, которое не коррелирует со специфическими условиями эксперимента или биологическими свойствами объекта, могут свидетельствовать о влиянии неизвестного весомого нецелевого фактора или о низком качестве данных.
Попарные сравнения профилей дифференциальной экспрессии по составу ДЭГ. Если список ДЭГ меньшего размера вложен в другой список ДЭГ большего размера, и отклонение размера каждого списка от среднего незначительно или коррелирует со специфическими условиями эксперимента или биологическими свойствами объекта, мы считаем, что результаты двух экспериментов консистентны. Чтобы оценить сходство двух профилей с учетом этого условия, для каждой пары списков ДЭГ рассчитывается индекс сходства I, который отражает долю общих ДЭГ в меньшем списке. Индекс сходства может принимать значения от нуля до единицы, при этом ноль соответствует отсутствию общих ДЭГ в двух списках, а единица соответствует полному вложению одного списка в другой. Матрицы сходства списков ДЭГ визуализируются в виде тепловой карты, на основании которой можно не только сделать вывод о сходстве профилей экспрессии по составу ДЭГ, но и выделить отдельные группы наиболее сходных экспериментов.
Кластеризация профилей дифференциальной экспрессии. Матрица сходства, описанная выше, сопоставляет списки ДЭГ, не учитывая величину изменения уровней экспрессии генов. Чтобы выявлять группы сходных профилей дифференциальной экспрессии с учетом этой величины, используется иерархическую кластеризацию на основании матрицы евклидовых расстояний в пространстве log2-трансформированных значений изменения уровней экспрессии генов, идентифицируемых как ДЭГ хотя бы в одном из анализируемых списков, без учета значимости этих изменений. Предварительно эти значения нормируются на диапазон разброса в каждом эксперименте и стандартизованы для каждого гена, что позволяет сравнивать профили транскрипционного ответа из разных экспериментов. Иерархическая кластеризация осуществляется с помощью функции Bclast из пакета shipunov v.1.17.1 с использованием метода Ward.D2.
Количественная оценка однородности группы профилей по составу ДЭГ. Пусть A – множество генов, идентифицируемых как ДЭГ хотя бы в одном из m анализируемых списков, а количество этих генов | A | = N. Множество А включает в себя (1) ДЭГ, изменение уровня экспрессии которых в заданной выборке из m списков определяется преимущественно действием целевого фактора, а также (2) гены, изменение уровня экспрессии которых существенно зависит от нецелевых факторов. Если вычислить значение Nk для подвыборки из k списков (k < m) и далее, добавляя к этой подвыборке по одному списку, вычислять значения Nk+i, то величина Nk+i должна не убывать ростом i. При этом, чем более неоднороден исследуемый набор профилей ДЭГ (чем больше он содержит списков, сформированных под влиянием различающихся нецелевых факторов), тем сильнее будет рост величины Nk+i.
Используя ресемплинг, создается m – 1 наборов псевдовыборок списков ДЭГ: в одном наборе i (i ∈ ℕ, i = [1; m – 1]) каждая псевдовыборка состоит из ki < m списков ДЭГ (k1 = m – 1, ki+1 = ki – 1), чтобы оценить, при каком значении ki будет наблюдаться значимое снижение Nki по сравнению с Nm. Для формирования одной псевдовыборки, из оригинального набора списков ДЭГ, состоящего из m элементов, случайным образом выбирается с возвращением ki списков, для которых далее определяется количество генов Nkij, идентифицируемых как ДЭГ хотя бы в одном из ki списков (индекс j обозначает номер псевдовыборки в одном наборе). Одновременно создавается псевдовыборка из m списков и рассчитывается соответствующее значение Nmj, после чего вычисляется разность dj = Nmj – Nkij. В результате 5000 итераций (j ∈ ℕ, j = [1; 5000]) формируется вариационный ряд этих разностей. Доверительный интервал определяется методом процентилей. Если при каких-то значениях ki наблюдается значимая разница между Nm и Nki, анализируемый набор профилей считается неоднородным. Распределение значений d визуализируется в виде гистограммы.