Инструмент ARGO_PeakScorePredictor
Ссылка на архив с программами
Инструкция по модулю предсказания значимости пиков ChIP-Seq на основе присутствия в них вырожденных IUPAC мотивов ARGO_PeakScorePredictor.
Описание функционала программного модуля;
Модуль предназначен для предсказания значимости пиков ChIP-Seq на основе присутствия в них вырожденных IUPAC мотивов. Предсказание производится с использованием моделей множественной регрессии, построенных с использованием программы STATISTICA (StatSoftTM, Tulsa, USA). Модуль включает модели, построенные при анализе результатов 10 ChIP-Seq экспериментов с различными транскрипционными факторами, принадлежащими 6 основным типам ДНК-связывающих доменов, согласно классификации Вингендера. Модуль включает в себя следующие компоненты:
-
Оценка представленности IUPAC мотивов в анализируемой выборке последовательностей программой MotsPres_LabPipeline.exe. Для этого используются значимые мотивы, ранее выявленные в последовательностях ChIP-Seq пиков соответствующего транскрипционного фактора. Поиск мотивов производится в обеих цепях анализируемых последовательностей.
-
Предсказание уровня значимости анализируемых последовательностей ChIP-Seq пиков программой MultRegression_LabPipeline.exe на основе локализации мотивов и модели множественной регрессии, построенной для соответствующего транскрипционного фактора. Полученный в результате файл можно загружать в программу STATISTICA и проводить дальнейший статистический анализ и визуализацию полученных результатов.
Описание входных данных;
На вход конвейера подается файл с выборкой нуклеотидных последовательностей в формате FASTA, набор IUPAC мотивов и регрессионная модель, построенная в программе STATISTICA.
Описание выходных данных;
Выходные данные содержат информацию о предсказанном уровне значимости ChIP-Seq пиков всех последовательностей, представленных в анализируемой выборке. В первой колонке – уровень значимости, оцененный ранее программой peak caller (если он был прописан в поле комментариев последовательностей), во второй колонке – его натуральный логарифм, затем идут колонки представленностей всех рассмотренных IUPAC мотивов, в последней колонке находится логарифм величины предсказанного уровня значимости пика для каждой последовательности.
- Комментарии по компиляции/сборке/запуску модуля, включая:
-
Исходные коды программ находятся в архивах MotsPres_LabPipeline.7z и MultRegression_LabPipelin.7z. Входные файлы для всех 10 транскрипционных факторов – в DB.7z.
-
Инструкция по эксплуатации модуля, содержащая примеры использования модуля и тестовые наборы входных и выходных данных.
-
Пример запуска программы:
- Все тестовые входные и выходные файлы находятся в приложении, файл «example.7z».
-
Запускается _MultRegression_LabPipeline_Start.bat
-
В результате создается выходной файл «MultRegression_LabPipeline.tab».