Вычислительный конвейер GBS-DP

Ссылка на инструмент в Galaxy

https://galaxy.icgbio.ru/root?tool_id=GBS-DP-galaxy

Модуль GBS-DP предназначен для решения задач, ориентированных на сельское хозяйство и биотехнологии, интегрирующего методы биоинформатики, анализ больших генетических данных и технологии искусственного интеллекта. Работа модуля состоит из трех основных этапов: предобработка данных, поиск полиморфизмов, анализ генетического разнообразия.

Предобработка данных включает проверку качества сырых прочтений генома, удаление адаптеров и построение индекса референсного генома.
Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов.
Анализ генетического разнообразия разделяется на два варианта обработки данных: (1) если полученные данные превышают занимаемый объем памяти в 1 Тб, (2) если полученные данные не превышают занимаемый объем памяти в 1 Тб.

Описание входных данных

На вход конвейера подается путь к набору библиотек прочтений и путь к референсному геному. Библиотеки прочтений должны быть в формате FASTQ, референсный геном – в формате FASTA.

Описание работы модуля и генерируемых выходных данных

Предобработка данных

На этом этапе производится контроль качества, удаление адаптеров сырых прочтений и построение индекса референсного генома. Контроль качества и удаление адаптеров производятся программой cutadapt. Для прочтений каждой библиотеки удаляются адаптеры, список которых пользователь должен внести в файл конфигураций. На этом этапе конвейер производит построение индекса референсного генома с помощью программы bwa index. Выходные данные этапа:

• triming_reads – предобработанные прочтения в FASTQ формате,

• ref – референсный геном в FASTA формате. Также индекс референсного генома в FASTA.idx формате.

Поиск полиморфизмов

Этап состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов. Картирование предобработанных прочтений производится программой bwa mem с параметрами “– k 19 – w 100”. Результаты картирования, полученные в формате SAM, переводятся в формат BAM и сортируются комбинацией программ samtools view и samtools sort соответственно. В отсортированных файлах производится поиск полиморфизмов (SNP, вставок и делеций (индел)) с помощью комбинации программ samtools mpileup и bcftools call. Ранее было показано на примере генома пшеницы, что комбинация программ “Samtools/mpileup + BWA-mem”, которая использована в нашем конвейере, превосходит другие комбинации программ картирования и идентификации полиморфизмов.

Выходные данные этапа:

• alignment – результаты картирования в SAM, BAM формате. Также отсортированные результаты картирования в SORT формате.

• VCF – результаты поиска полиморфизмов в VCF формате.

• VCF_index – индекс результатов поиска полиморфизмов в CSI формате.

Анализ генетического разнообразия

Этап разделяется на два варианта обработки данных: если полученные данные превышают занимаемый объем памяти в 1 Тб и если полученные данные не превышают занимаемый объем памяти в 1 Тб.

Выбор соответствующей опции осуществляется автоматически и связан с увеличенной нагрузкой на оперативную память компьютера при работе с большими данными, если суммарный размер полученных файлов VCF превышает 1 Тб). Вариант обработки для данных с общим объемом меньше 1 Тб включает три этапа:

результаты поиска полиморфизмов в формате VCF для каждой библиотеки индексируются с помощью программы bcftools index;
проиндексированные файлы объединяются в общий файл формата VCF в программе bcftools merge. Этот файл содержит данные о полиморфизмах всех исследуемых образцов для всех хромосом;
полученный общий файл формата VCF конвертируется в формат GDS (Genomic Data Structure) с помощью пакета R – SeqArray. Данный формат позволяет значительно сократить объем оперативной памяти, затрачиваемой на обработку результатов поиска полиморфизмов, за счет перевода табличного формата в бинарный.

Вариант обработки для данных с общим занимаемым объемом больше 1 Тб включает четыре этапа:

результаты поиска полиморфизмов в формате VCF для каждой библиотеки разбиваются на хромосомы с помощью программы bcftools view;
полученные файлы с полиморфизмами для каждой хромосомы индексируются с использованием программы bcftools index;
далее файлы с полиморфизмами объединяются для каждой хромосомы. В результате получаются файлы, содержащие информацию о полиморфизмах во всех библиотеках для отдельной хромосомы;
файлы для отдельных хромосом в формате VCF конвертируются в формат GDS. После этого полученные файлы формата GDS для каждой хромосомы объединяются в общий файл с помощью функции snpgdsCombineGeno пакета SNPRelate.

Схема построения филогенетического дерева и кластеризации для обоих вариантов идентичная.

Для полученного общего файла, содержащего информацию о полиморфизмах для всех библиотек по всем хромосомам в формате GDS, анализируется параметр LD. Для расчета применяется пакет R – SNPRelate, функция snpgdsLDpruning.

Для анализа главных компонент, отфильтрованных SNP, применяется пакет R – SNPrelate, для построения филогенетического дерева – тоже пакет SNPrelate, но с использованием метода иерархической кластеризации.

Выходные данные этапа:

• chr – результаты поиска полиморфизмов разделяются по хромосомам в формате VCF, также, как и индексы принадлежащие им, при условии, если полученные данные превышают занимаемый объем памяти в 1 Тб,

• tree – соединенные результаты поиска полиморфизмов по всем библиотекам в VCF формате,

• results – содержит основные результаты работы программы,

• cluster.gds – переформатированный формат результатов поиска полиморфизмов, GDS формат,

• cluster.png – визуализация графа PCA кластеризации,

• cluster_tab.tsv – табличный результат PCA кластеризации в TSV формате,

• dendrogram.tree – результаты построения филогенетического дерева методом иерархической кластеризации, в формате TREE,

• plotdendogram.png – визуализация филогенетического дерева.