Информационно-программный комплекс ICBrainDB


Ссылки на базу данных

https://icbraindb.cytogen.ru/

https://icbraindb.cytogen.ru/gui/


Конвейер состоит из трех основных этапов: предобработка данных; поиск полиморфизмов, ассоциированных с психологическими особенностями людей, анализ взаимосвязей между генетическими и нейрофизиологическими показателями, определяющими поведенческие особенности людей.

  1. Предобработка данных включает проверку качества сырых прочтений, удаление адаптеров и построение индекса референсного генома.

  2. Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированых прочтений и поиска однонуклеотидных полиморфизмов, ассоциированных с психологическими особенностями людей.

  3. Анализ взаимосвязи между генетическими и нейрофизиологическими показателями предполагает совместную обработку данных на внешних компьютерах. В ходе такой обработки должны быть оценены метрики мозговой активности, ассоциированные с индивидуальными психологическими особенностями людей. Затем должен быть выполнен анализ статистических зависимостей между этими метриками и однонуклеотидными полиморфизмами, выявленными на втором этапе.

Описание входных данных

На вход конвейера подается путь к набору библиотек прочтений и путь к референсному геному. Библиотеки прочтений должны быть в формате FASTQ, референсный геном – в формате FASTA. Кром того, на вход конвейера подается путь к таблицам, содержащим численные оценки индивидуальных психологических особенностей, полученных на основе тестирования при помощи опросников, а также путь к базе записей ЭЭГ.

Описание выходных данных

Предобработка данных

  • triming_reads – предобработанные прочтения в FASTQ формате.
  • ref – референсный геном в FASTA формате. Также индекс референсного генома в FASTA.idx формате.
  • Очистка ЭЭГ от артефактов.
  • Оценка численных значений мозговой активности в областях интереса, ассоциированных с изменениями функционального состояния головного мозга.
  • Преобразование данных психологических опросников с целью извлечения мерки личностных свойств, включая предрасположенность к психиатрическим заболеваниям.

Поиск полиморфизмов

  • alignment – результаты картирования в SAM, BAM формате. Также отсортированные результаты картирования в SORT формате.
  • VCF – результаты поиска полиморфизмов в VCF формате.
  • VCF_index – индекс результатов поиска полиморфизмов в CSI формате.

Анализ генетического разнообразия

  • chr – результаты поиска полиморфизмов разделяются по хромосомам в формате VCF, также, как и индексы, принадлежащие им. При условии, если полученные данные превышают занимаемый объем памяти в 1 Тб
  • tree – соединенные результаты поиска полиморфизмов по всем библиотекам в VCF формате.
  • results – содержит основные результаты работы программы.
  • cluster.gds – переформатированный формат результатов поиска полиморфизмов, GDS формат.
  • cluster.png – визуализация графа PCA кластеризации.
  • cluster_tab.tsv – табличный результат PCA кластеризации в TSV формате.

Предобработка данных. На этом этапе производится контроль качества, удаление адаптеров сырых прочтений и построение индекса референсного генома. Контроль качества и удаление адаптеров производятся программой cutadapt. Для прочтений каждой библиотеки удаляются адаптеры, список которых пользователь должен внести в файл конфигураций. На этом этапе конвейер производит построение индекса референсного генома с помощью программы bwa index.

На этом же этапе проводится оценка психологических метрик на основе преобразования данных опросников, очистка ЭЭГ от двигательных и иных артефактов, оценка плотности токовых диполей в узлах нейрофизиологических сетей, ассоциированных с функциональными состояниями головного мозга человека.

Поиск полиморфизмов состоит из картирования предобработанных прочтений на референсный геном, сортировки картированных прочтений и поиска однонуклеотидных полиморфизмов, ассоциированных с психологическими особенностями людей. Картирование предобработанных прочтений производится программой bwa mem с параметрами “–k 19 –w 100”. Результаты картирования, полученные в формате SAM, переводятся в формат BAM и сортируются комбинацией программ samtools view и samtools sort соответственно. В отсортированных файлах производится поиск полиморфизмов (SNP, вставок и делеций (индел)) с помощью комбинации программ samtools mpileup и bcftools call.

Анализ взаимосвязи между нейрофизиологическими и генетическими сетями состоит из двух этапов:

  • на первом этапе проводится оценка функционального баланса сетей покоя мозга. В первую очередь, оценивается сдвиг активности мозга с сторону доминирования либо дефолт-системы (DMN), либо одной из положительных к задачам сетей мозга (TPN), таких как центральная исполнительная сеть (CEN) или сеть значимости (SA). Функциональный баланс интерпретируется в терминах направленности фокуса внимания человека на свои внутренние переживания, либо на события внешнего мира. На основе численных оценок состояния нейрофизиологических сетей покоя мозга устанавливается взаимосвязь между экспериментальными условиями, в которых проводилась запись ЭЭГ, и между психологическими особенностями людей, участвовавших в обследованиях, включая данные о их предрасположенности к психиатрическим заболеваниям.
  • на втором этапе проводится совместный анализ данных о генетических сетях, ассоциированных с психологическими особенностями людей, и данными о нейрофизиологических сетях, ассоциированными с теми же психологическими особенностями тех же людей. В итоге, выявляются закономерности влияния генетических сетей на поведение людей через медиацию нейрофизиологических функций их головного мозга.