Программный модуль «CROP GENE»
Модуль «CROP GENE» предназначен для решения задач, ориентированных на сельское хозяйство и биотехнологии, интегрирующего методы биоинформатики, анализ больших генетических данных и технологии искусственного интеллекта. Система включает блоки биоинформатического анализа данных: анализ вариаций генов, сборка геномов и транскриптомов, аннотация генов и белков. Программный комплекс CropGene включает программные пакеты, представленные на рисунке 1.
Рисунок 1. Схема программного комплекса CropGene с указанием основных блоков анализа (скругленные прямоугольники в центре) и конкретных решаемых задач (овалы справа).
Структура программного комплекса включает следующие блоки для решения задач. Программный модуль анализа полногеномных ассоциаций.
Этот модуль реализует следующие этапы анализа:
• Анализ данных фенотипирования. Обработка данных фенотипирования производится с использованием пакетов R, pastecs, psych.
• Обработка данных генотипирования. Направлен на процессинг данных генотипирования, полученных методом генотипирования на микрочипах и методом GBS. Обработка включает в себя проверку качества сырых прочтений, картирование на референсный геном с помощью BWA-MEM и поиск полиморфизмов с использованием vcftools. Варианты, определенные вышеуказанными методами генотипирования, фильтруют по качеству, частоте минорного аллеля, гетерозиготности и количеству пропущенных данных. Этот этап осуществляется инструментом bcftools. Для восстановления пропущенных данных генотипирования используют BEAGLE 5.2.
• Полногеномный анализ ассоциаций. На данном этапе осуществляется непосредственно полногеномный анализ ассоциаций, реализуемый на языке программирования R при помощи функций пакета «GAPIT3».
• Приоритизация генов в выявленных локусах. Модуль полногеномного анализа ассоциаций направлен на выявление генов-кандидатов, связанных с интересующими признаками. Первым делом, с использованием функций пакета R «genetics» определяются границы локусов, которые включают в себя значимо ассоциированные с фенотипом варианты. Далее, основываясь на опубликованных данных по экспрессии генов у исследуемого организма и на ресурсах платформы Knetminer, производят приоритизацию генов среди обнаруженных локусов.
Программный модуль анализа CNV.
Этот модуль направлен на решение задач по оценке и анализу вариаций количества копий в геноме. Он реализует несколько этапов анализа:
• Наборы сырых прочтений фильтруются по качеству и длине с помощью программы fastp Далее фильтрованные и обработанные наборы прочтений картируются на референсный геном картофеля с помощью программы BWA. Дупликаты в картированных прочтениях маркируются, удаляются, после чего происходит сортировка и индексирование прочтений с помощью программы.
• Полученные файлы формата BAM используются как входные данные в программе CNVpytor. Вариации количества копий выявлялись на всех хромосомах референсного генома. Выявленные CNV фильтруются следующим образом: длина более 1 т.п.н., p-value < 0.01, q0 < 50% и pN < 50%. Для сопоставления выявленных CNV с генами референсного генома используется R пакет intansv.
• Для последующей обработки список CNVs был представлен в виде матрицы, в которой строки соответствуют конкретному генотипу, а столбцы — гену референсного генома. Каждый элемент матрицы представлен в трех вариантах: +1 (потенциальная дупилкация), -1 (потенциальная делеция) и 0 (отсутствие значимого CNV). Далее проводится анализ главных компонент (PCA) с помощью пакета Scikit-learn v1.1.2, что позволяет оценить генетическое разнообразие.
Биоинформатический конвейер GBS-DP.
Этот программный модуль направлен на анализ данных полученных методом GBS состоит из трех основных этапов:
• Предобработка данных включает проверку качества сырых прочтений FastQC, удаление адаптеров fastp и построение индекса референсного генома.
• Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном Bwa-Mem2, сортировки картированных прочтений Samtools и поиска однонуклеотидных полиморфизмов Bcftools.
• Анализ генетического разнообразия разделяется на два варианта обработки данных: если полученные данные превышают занимаемый объем памяти в 1 Тб и если полученные данные не превышают занимаемый объем памяти в 1 Тб. Выбор соответствующей опции осуществляется автоматически и связан с увеличенной нагрузкой на оперативную память компьютера при работе с большими данными. Анализ главных компонент, отфильтрованных SNP, применяется пакет R – SNPrelate, для построения филогенетического дерева – тоже пакет SNPrelate.
Программный модуль по реконструкции транскриптома.
Этот модуль реализует следующие этапы анализа: • Непосредственно сборка последовательностей контигов из прочтений библиотек RNA-seq. На этой стадии используются программы: Trinity, Trans-ABySS, rnaSpades.
• Объединение полученных наборов контигов и удаление избыточности программой tr2aacds.pl из конвейера EvidentialGene
• Оценка качества полученных последовательностей; программа BUSCO используется для определения полноты транскриптома; программа kallisto показывает, насколько полно исходные библиотеки прочтений были использованы для реконструкции транскриптома; rnaQUAST оценивает различные метрики качества полученного транскриптома, в том числе наличие гомологии с последовательностью генома организма, или генома близкородственного организма, в случае работы с немодельным видом.
Программный модуль реконструкции и анализа пангенома.
Этот модуль реализует следующие шаги анализа:
• Реконструкция каждого генома на основе парных коротких прочтений с помощью геномного сборщика MaSuRCA.
• Маскирование мобильных генетических элементов с помощью RepeatMasker и дальнейшая de novo аннотация реконструированных маскированных геномов с дальнейшей трансляцией открытых рамок считывания с помощью программы AUGUSTUS.
• Выявление ортологических групп в наборе аминокислотных последовательностях, полученных на основе открытых рамок считывания, с помощью OrthoFinder.
Программный модуль оценки экспрессии генов.
В данном модуле оценка экспрессии генов может проводиться как на основе референсного генома, так и на основе транскриптома, реконструированного de novo:
• Для подсчёта экспрессии генов референсного генома проводится выравнивание прочтений библиотек RNA-seq на последовательность генома с помощью программы Dart. Далее используется разметка генома с позициями известных генов для подсчёта количества прочтений, картированных на каждый ген, с помощью программы featureCounts.
• Для оценки экспрессии транскриптов из реконструированного ранее транскриптома используется программа kallisto, которая проводит т.н. псевдовыравнивания прочтений, чтобы определить, к какому транскрипту они принадлежат, на основании чего далее подсчитываются уровни экспрессии
Биоинформатический конвейер ICAnnoLncRNA.
Этот модуль, направлен на выявление и аннотацию днРНК, реализует три этапа обработки транскриптомных последовательностей:
• Контроль качества. Данный этап включает две операции: построение индексного файла для геномной последовательности программой gmap и обучение модели распознавания днРНК программой LncFinder v1.1.4.
• Идентификация днРНК. Данный блок состоит из трех этапов: (1) предсказание кандидатов в днРНК из входного набора транскриптов с помощью метода LncFinder; (2) фильтрация полученных последовательностей-кандидатов на основе идентификации трансмембранных сегментов в ОРС; (3) выравнивание фильтрованных последовательностей-кандидатов днРНК на референсный геном.
• Анализ пан-транскриптомов. Аннотация включает, определение типов последовательностей днРНК по выравниванию на гены кодирующие белок, выявление консервативных днРНК, анализ структурных особенностей днРНК и их экспрессии.
Программный модуль анализа эволюции белков OrthoDOM.
Модуль реализует четыре ключевых этапа анализа белковых последовательностей:
• На первом проводится валидация входных данных и проверка наличия функциональных доменов, заданных пользователем у референсных белков.
• На втором этапе проверяется наличие ключевых доменов в референсных последовательностях
• На третьем — выполняется работа программы Orthofinder для исследуемых протеомов.
• На четвертом производится проверка выявленных ортологов по наличию в их последовательности наборов заданных доменов.
1. Предобработка данных включает проверку качества сырых прочтений генома, удаление адаптеров и построение индекса референсного генома.
2. Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов.
3. Анализ генетического разнообразия разделяется на два варианта обработки данных: (1) если полученные данные превышают занимаемый объем памяти в 1 Тб, (2) если полученные данные не превышают занимаемый объем памяти в 1 Тб.
Описание входных данных
Входные данные для сырых прочтений – в формате FASTQ, для нуклеотидных и белковых последовательностей в формате FASTA. Аннотация генома в формате GFF.
Описание выходных данных
Выходные данные в различных форматах: FASTA (последовательности транскриптов, Генов и белков), результаты поиска полиморфизмов разделяются по хромосомам в формате VCF, переформатированный формат результатов поиска полиморфизмов, GDS формат, графическая информация в форматах png, прочие данные в формате tsv, филогенетические деревья в формате NPH (newick).