Программа FastProtMutStab
Ссылка на репозиторий
https://gitea.sysbio.ru/program_providing_fund/FastProtMutStab
Модуль предназначен для оценки влияния аминокислотных замен, ассоциированных с патологиями человека, на структуру и функцию белков. Конвейер «FastProtMutStab» состоит из трех основных шагов: (1) векторизация аминокислотной последовательности в окрестности мутантной позиции, (2) снижение размерности вектора с использованием искусственных нейронных сетей, имеющих топологию «автоэнкодер», (3) алгоритм КРАБ для предсказания знака изменения свободной энергии упаковки белка (DDG) для мутантной последовательности. Векторизация аминокислотной последовательности в окрестности мутантной позиции (рисунок 1) осуществлялась с использованием метода «One hot encoding» для кодирования аминокислот. Аминокислоты кодировались 20-мерными векторами: Ala – (1, 0, …, 0, 0), ……., Cys – (0, 1, 0, …, 0), …..Tyr – (0, …, 0, 0, 1).
Аминокислотная замена кодировалась вектором B-A, где B — вектор, кодирующий аминокислоту после замены, а A — вектор кодирующий аминокислоту перед заменой. В результате вектор, кодирующий окружение и мутацию, имеет размерность 340.
A) ![]() |
---|
B) ![]() |
Рисунок 1 - (А) Фрагмент первичной структуры белка, используемый для предсказания изменения термодинамической стабильности. Темно-серым отмечена позиция белка, в которой производится замена аминокислоты, остальные позиции фрагмента отмечены светло-серым цветом. (Б) Пример работы модифицированного алгоритма КРАБ. Тип точек определяется штриховкой. Жирными линиями обозначены ребра, удалённые в результате разбиения (раздел 2.4.1)
Для уменьшения размерности этого вектора был применен метод на основе искусственных нейронных сетей, имеющих топологию «автоэнкодер». Нейросеть включала три полносвязанных слоя: входной, скрытый и выходной. Использовалась функция активации rectified linear unit (ReLU) для каждого слоя. Количество нейронов во входном и выходном слоях было равно 340, в соответствии с размерностью полученного вектора. Размер скрытого слоя 50 нейронов. Оптимизатором являлся Adam с коэффициентом скорости обучения равным 0.001. Число эпох при обучении было 10. Функция ошибки – MSE. Данные делились на обучающие и тестовые выборки в соотношении 90 и 10% соответственно. Модель DAE была реализована с применением пакета PyTorch. Для предсказания изменения свободной энергии белковой глобулы при одиночной замене использовался метод, основанный на алгоритме КРАБ.
Описание входных данных
На вход конвейера подается файл с аминокислотной последовательностью в формате FASTA.
Описание выходных данных
Выходные данные содержат информацию о всех возможных мутациях в белке и их влиянии на изменение свободной энергии белковой глобулы. Данные представлены в текстовом формате в виде таблицы. В первой колонке указан номер позиции в последовательности, следующие 20 колонок – это результат предсказания влияния мутации на термодинамическую стабильность, каждая колонка соответствует замене на конкретную аминокислоту.