Программный конвейер «HyperSpecWork» для обработки и анализа гиперспектральных изображений
Kонвейер обработки гиперспектральных изображений HyperSpecWork включает: предварительную обработку, базовый статистический анализ, визуализацию многоканального гиперспектрального изображения, а также решение задач классификации и кластеризации при помощи методов машинного обучения. В текущей версии пакета реализованы следующие методы: построение доверительного интервала произвольного уровня для разницы выборочных средних; проверка сходства распределений интенсивности линий спектра для двух наборов гиперспектральных изображений на основе U-критерия Манна-Уитни и критерия согласия Пирсона; визуализация в двумерном пространстве с помощью методов понижения размерности PCA, ISOMAP и UMAP; классификация с помощью линейной или гребневой регрессии, случайного леса и градиентного бустинга; кластеризация образцов с помощью EM-алгоритма. Программный конвейер реализован на языке Python с использованием библиотек Pandas, NumPy, OpenCV, SciPy, Sklearn, Umap, CatBoost и Plotly. Исходный код доступен по адресу: https://github.com/igor2704/Hyperspectral_images.
Блок-схема конвейера представлена на рисунке 1.
Рисунок 1. Блок-схема вычислительного конвейера HyperSpecWork.
Конвейер получает на вход многоканальные изображения, для которых производится предварительная обработка, нормировка интенсивностей пикселей, далее осуществляется анализ данных.
Описание входных данных
- На вход конвейера подаются многоканальные гиперспектральные изображения, каждый канал которого соответствовует интенсивности отражения в определенном диапазоне длин волн (рис. 2). Гиперспектральное изображение представляет собой гиперкуб, в котором индексы \(i,j (i,j=1,…N)\) соответствуют пространственным координатам (пикселям изображения), индекс \(k (=1,… K)\) соответствует линиям гиперспектра с определенной длиной волны. N – размер стороны изображения в пикселях, K – число спектральных каналов. Каждый элемент этого гиперкуба соответствует интенсивности отраженного излучения от объекта съемки для пикселя на изображении с пространственными координатами \(i, j\) и спектральной линии c порядковым номером k.
Изображения представляются в формате tiff.
Рисунок 2. Изображение зерен ячменя в чашке Петри в оттенках серого (а) и визуализация интенсивности отраженного излучения в интервалах длин волн 450 нм (б), 554 нм (в) и 986 нм (г).
Описание выходных данных:
Выходными файлами являются файлы в HTML формате, которые содержат статистическую и графическую информацию, полученную на основе анализа гиперспектральных данных.