Информационно-программный комплекс ICBrainDB
Ссылки на базу данных
https://icbraindb.cytogen.ru/gui/
Конвейер состоит из трех основных этапов: предобработка данных; поиск полиморфизмов, ассоциированных с психологическими особенностями людей, анализ взаимосвязей между генетическими и нейрофизиологическими показателями, определяющими поведенческие особенности людей.
-
Предобработка данных включает проверку качества сырых прочтений, удаление адаптеров и построение индекса референсного генома.
-
Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированых прочтений и поиска однонуклеотидных полиморфизмов, ассоциированных с психологическими особенностями людей.
-
Анализ взаимосвязи между генетическими и нейрофизиологическими показателями предполагает совместную обработку данных на внешних компьютерах. В ходе такой обработки должны быть оценены метрики мозговой активности, ассоциированные с индивидуальными психологическими особенностями людей. Затем должен быть выполнен анализ статистических зависимостей между этими метриками и однонуклеотидными полиморфизмами, выявленными на втором этапе.
Описание входных данных
На вход конвейера подается путь к набору библиотек прочтений и путь к референсному геному. Библиотеки прочтений должны быть в формате FASTQ, референсный геном – в формате FASTA. Кром того, на вход конвейера подается путь к таблицам, содержащим численные оценки индивидуальных психологических особенностей, полученных на основе тестирования при помощи опросников, а также путь к базе записей ЭЭГ.
Описание выходных данных
Предобработка данных
- triming_reads – предобработанные прочтения в FASTQ формате.
- ref – референсный геном в FASTA формате. Также индекс референсного генома в FASTA.idx формате.
- Очистка ЭЭГ от артефактов.
- Оценка численных значений мозговой активности в областях интереса, ассоциированных с изменениями функционального состояния головного мозга.
- Преобразование данных психологических опросников с целью извлечения мерки личностных свойств, включая предрасположенность к психиатрическим заболеваниям.
Поиск полиморфизмов
- alignment – результаты картирования в SAM, BAM формате. Также отсортированные результаты картирования в SORT формате.
- VCF – результаты поиска полиморфизмов в VCF формате.
- VCF_index – индекс результатов поиска полиморфизмов в CSI формате.
Анализ генетического разнообразия
- chr – результаты поиска полиморфизмов разделяются по хромосомам в формате VCF, также, как и индексы, принадлежащие им. При условии, если полученные данные превышают занимаемый объем памяти в 1 Тб
- tree – соединенные результаты поиска полиморфизмов по всем библиотекам в VCF формате.
- results – содержит основные результаты работы программы.
- cluster.gds – переформатированный формат результатов поиска полиморфизмов, GDS формат.
- cluster.png – визуализация графа PCA кластеризации.
- cluster_tab.tsv – табличный результат PCA кластеризации в TSV формате.
Предобработка данных. На этом этапе производится контроль качества, удаление адаптеров сырых прочтений и построение индекса референсного генома. Контроль качества и удаление адаптеров производятся программой cutadapt. Для прочтений каждой библиотеки удаляются адаптеры, список которых пользователь должен внести в файл конфигураций. На этом этапе конвейер производит построение индекса референсного генома с помощью программы bwa index.
На этом же этапе проводится оценка психологических метрик на основе преобразования данных опросников, очистка ЭЭГ от двигательных и иных артефактов, оценка плотности токовых диполей в узлах нейрофизиологических сетей, ассоциированных с функциональными состояниями головного мозга человека.
Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов, ассоциированных с психологическими особенностями людей. Картирование предобработанных прочтений производится программой bwa mem с параметрами “–k 19 –w 100”. Результаты картирования, полученные в формате SAM, переводятся в формат BAM и сортируются комбинацией программ samtools view и samtools sort соответственно. В отсортированных файлах производится поиск полиморфизмов (SNP, вставок и делеций (индел)) с помощью комбинации программ samtools mpileup и bcftools call.
Анализ взаимосвязи между нейрофизиологическими и генетическими сетями состоит из двух этапов:
- на первом этапе проводится оценка функционального баланса сетей покоя мозга. В первую очередь, оценивается сдвиг активности мозга с сторону доминирования либо дефолт-системы (DMN), либо одной из положительных к задачам сетей мозга (TPN), таких как центральная исполнительная сеть (CEN) или сеть значимости (SA). Функциональный баланс интерпретируется в терминах направленности фокуса внимания человека на свои внутренние переживания, либо на события внешнего мира. На основе численных оценок состояния нейрофизиологических сетей покоя мозга устанавливается взаимосвязь между экспериментальными условиями, в которых проводилась запись ЭЭГ, и между психологическими особенностями людей, участвовавших в обследованиях, включая данные о их предрасположенности к психиатрическим заболеваниям.
- на втором этапе проводится совместный анализ данных о генетических сетях, ассоциированных с психологическими особенностями людей, и данными о нейрофизиологических сетях, ассоциированными с теми же психологическими особенностями тех же людей. В итоге, выявляются закономерности влияния генетических сетей на поведение людей через медиацию нейрофизиологических функций их головного мозга.