Методы автоматического извлечения знаний и фактов
ВВЕДЕНИЕ. ANDSystem реализует полный цикл инженерии знаний: автоматическое извлечение сведений из текстов и баз данных, накопление их в интегрированной базе знаний и предоставление удобных средств для реконструкции и анализа сетей знаний. Система не уступает существующим аналогам по полноте извлекаемой информации и превосходит их по числу типов объектов и взаимодействий, что позволяет более детально описывать молекулярно-генетические и патофизиологические процессы. Основные модули ANDSystem показаны на рисунке Ж.3. В их число входят:
- Модуль онтологии, включающий средства генерации онтологии предметной области с использованием ИИ, словари объектов (сущностей) и базу семантико-лингвистических шаблонов для извлечения знаний о взаимодействиях (создано более 25 000 правил на основе экспертного анализа текстов);
- Модуль предобработки текстов и распознавания имён объектов, обеспечивающий преобразование текста, разбиение на предложения, нормализацию, морфологический и синтаксический анализ, разметку поименованных сущностей и разрешение синонимии, омонимии и кореферентных ссылок;
- Модуль извлечения данных из фактографических баз;
- Модуль извлечения знаний из текстов, работающий в два этапа: сначала применяется система семантико-лингвистических шаблонов к размеченным текстам, затем на полученных данных обучаются нейросетевые модели для расширенного извлечения знаний;
- Модуль интеграции и анализа взаимодействий, охватывающий широкий круг молекулярно-генетических связей между генами, белками, микроРНК, метаболитами, лекарствами, клетками, биологическими процессами, фенотипическими признаками, заболеваниями, факторами внешней среды и др. Учитываются более 20 типов взаимодействий (регуляция экспрессии и функции, транспорт, стабильность, каталитические реакции, физические межмолекулярные контакты, ассоциации с заболеваниями и др.), характеризуемых типом, направлением, организмом и клеткой. Информация, полученная из текстов и баз данных, интегрируется в общей базе знаний ANDSystem.

Рисунок Ж.3 ANDSystem: компьютерная система для автоматического извлечения знаний и фактов из баз данных и текстов научных публикаций на основе методов машинного обучения Применение методов искусственного интеллекта позволило достичь высокой точности установления связей между объектами: F1-score = 0,9724, AUC = 0,997 (ROC-кривая приведена на рисунке Ж.4, значение ошибки (loss) 0,0669).

Рисунок Ж.4 ROC-кривая бинарного классификатора для предсказания взаимодействий между парами вершин сети ANDSystem для человека Алгоритм модуля предсказания связей между парами вершин ассоциативной генной сети ANDSystem (рисунок Ж.5) включает: преобразование исходного гетерогенного графа в однодольный моногенный формат, отбор локального окрестности для каждой вершины, представление вершин в виде векторов признаков, а также обучение графовой нейросети для получения эмбеддингов, отражающих особенности локальной и глобальной топологии сети. Для векторного представления вершин использовалась GAT-сеть на основе TransformerConv с четырьмя скрытыми слоями; вершины кодировались бинарными векторами типов объектов, а рёбра — векторами типов взаимодействий и p-мерой совстречаемости. Механизм внимания с несколькими «головами» учитывал признаки соседних вершин и рёбер, обучение велось с использованием логистической функции потерь и оптимизатора AdamW. На основе пар векторов вершин и значения совстречаемости из ANDDigest обучался многослойный перцептрон — бинарный классификатор, предсказывающий наличие взаимодействия. Применение ГНС к графу знаний ANDSystem повышает точность реконструкции ассоциативных генных сетей и позволяет предсказывать новые функциональные связи между объектами.

Рисунок Ж.5 Схематическая иллюстрация работы модуля реконструкции графа знаний ANDSystem на основе графовых нейросетей