Вычислительный конвейер GBS-DP
Ссылка на инструмент в Galaxy
https://galaxy.icgbio.ru/root?tool_id=GBS-DP-galaxy
Модуль GBS-DP предназначен для решения задач, ориентированных на сельское хозяйство и биотехнологии, интегрирующего методы биоинформатики, анализ больших генетических данных и технологии искусственного интеллекта. Работа модуля состоит из трех основных этапов: предобработка данных, поиск полиморфизмов, анализ генетического разнообразия.
-
Предобработка данных включает проверку качества сырых прочтений генома, удаление адаптеров и построение индекса референсного генома.
-
Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов.
-
Анализ генетического разнообразия разделяется на два варианта обработки данных: (1) если полученные данные превышают занимаемый объем памяти в 1 Тб, (2) если полученные данные не превышают занимаемый объем памяти в 1 Тб.
Описание входных данных
На вход конвейера подается путь к набору библиотек прочтений и путь к референсному геному. Библиотеки прочтений должны быть в формате FASTQ, референсный геном – в формате FASTA.
Описание работы модуля и генерируемых выходных данных
Предобработка данных
На этом этапе производится контроль качества, удаление адаптеров сырых прочтений и построение индекса референсного генома. Контроль качества и удаление адаптеров производятся программой cutadapt. Для прочтений каждой библиотеки удаляются адаптеры, список которых пользователь должен внести в файл конфигураций. На этом этапе конвейер производит построение индекса референсного генома с помощью программы bwa index. Выходные данные этапа:
• triming_reads – предобработанные прочтения в FASTQ формате,
• ref – референсный геном в FASTA формате. Также индекс референсного генома в FASTA.idx формате.
Поиск полиморфизмов
Этап состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов. Картирование предобработанных прочтений производится программой bwa mem с параметрами “– k 19 – w 100”. Результаты картирования, полученные в формате SAM, переводятся в формат BAM и сортируются комбинацией программ samtools view и samtools sort соответственно. В отсортированных файлах производится поиск полиморфизмов (SNP, вставок и делеций (индел)) с помощью комбинации программ samtools mpileup и bcftools call. Ранее было показано на примере генома пшеницы, что комбинация программ “Samtools/mpileup + BWA-mem”, которая использована в нашем конвейере, превосходит другие комбинации программ картирования и идентификации полиморфизмов.
Выходные данные этапа:
• alignment – результаты картирования в SAM, BAM формате. Также отсортированные результаты картирования в SORT формате.
• VCF – результаты поиска полиморфизмов в VCF формате.
• VCF_index – индекс результатов поиска полиморфизмов в CSI формате.
Анализ генетического разнообразия
Этап разделяется на два варианта обработки данных: если полученные данные превышают занимаемый объем памяти в 1 Тб и если полученные данные не превышают занимаемый объем памяти в 1 Тб.
Выбор соответствующей опции осуществляется автоматически и связан с увеличенной нагрузкой на оперативную память компьютера при работе с большими данными, если суммарный размер полученных файлов VCF превышает 1 Тб). Вариант обработки для данных с общим объемом меньше 1 Тб включает три этапа:
-
результаты поиска полиморфизмов в формате VCF для каждой библиотеки индексируются с помощью программы bcftools index;
-
проиндексированные файлы объединяются в общий файл формата VCF в программе bcftools merge. Этот файл содержит данные о полиморфизмах всех исследуемых образцов для всех хромосом;
-
полученный общий файл формата VCF конвертируется в формат GDS (Genomic Data Structure) с помощью пакета R – SeqArray. Данный формат позволяет значительно сократить объем оперативной памяти, затрачиваемой на обработку результатов поиска полиморфизмов, за счет перевода табличного формата в бинарный.
Вариант обработки для данных с общим занимаемым объемом больше 1 Тб включает четыре этапа:
-
результаты поиска полиморфизмов в формате VCF для каждой библиотеки разбиваются на хромосомы с помощью программы bcftools view;
-
полученные файлы с полиморфизмами для каждой хромосомы индексируются с использованием программы bcftools index;
-
далее файлы с полиморфизмами объединяются для каждой хромосомы. В результате получаются файлы, содержащие информацию о полиморфизмах во всех библиотеках для отдельной хромосомы;
-
файлы для отдельных хромосом в формате VCF конвертируются в формат GDS. После этого полученные файлы формата GDS для каждой хромосомы объединяются в общий файл с помощью функции snpgdsCombineGeno пакета SNPRelate.
Схема построения филогенетического дерева и кластеризации для обоих вариантов идентичная.
Для полученного общего файла, содержащего информацию о полиморфизмах для всех библиотек по всем хромосомам в формате GDS, анализируется параметр LD. Для расчета применяется пакет R – SNPRelate, функция snpgdsLDpruning.
Для анализа главных компонент, отфильтрованных SNP, применяется пакет R – SNPrelate, для построения филогенетического дерева – тоже пакет SNPrelate, но с использованием метода иерархической кластеризации.
Выходные данные этапа:
• chr – результаты поиска полиморфизмов разделяются по хромосомам в формате VCF, также, как и индексы принадлежащие им, при условии, если полученные данные превышают занимаемый объем памяти в 1 Тб,
• tree – соединенные результаты поиска полиморфизмов по всем библиотекам в VCF формате,
• results – содержит основные результаты работы программы,
• cluster.gds – переформатированный формат результатов поиска полиморфизмов, GDS формат,
• cluster.png – визуализация графа PCA кластеризации,
• cluster_tab.tsv – табличный результат PCA кластеризации в TSV формате,
• dendrogram.tree – результаты построения филогенетического дерева методом иерархической кластеризации, в формате TREE,
• plotdendogram.png – визуализация филогенетического дерева.