1. Интеграция данных Multi-Omic и выбор функций для стратификации пациентов на основе выживания с помощью контролируемых бетонных автоэнкодеров (arXiv)

Автор:Педро Энрике да Кошта Авелар, Роман Ладдах, София Карагианнис, Мин Ву, София Цока

Аннотация: Рак – это сложное заболевание, имеющее значительные социальные и экономические последствия. Достижения в области высокопроизводительных молекулярных анализов и снижение затрат на выполнение высококачественных мультиомных измерений способствовали появлению новых идей с помощью машинного обучения. Предыдущие исследования показали перспективность использования нескольких омических слоев для прогнозирования выживаемости и стратификации больных раком. В этой статье мы разработали модель контролируемого автоэнкодера (SAE) для мультиомной интеграции, основанной на выживании, которая улучшает предыдущую работу, и сообщаем о конкретной модели контролируемого автоэнкодера (CSAE), которая использует выбор функций для совместного восстановления входных функций, а также как предсказать выживание. Наши эксперименты показывают, что наши модели превосходят или находятся на одном уровне с некоторыми наиболее часто используемыми базовыми уровнями, при этом либо обеспечивая лучшее разделение выживаемости (SAE), либо они более интерпретируемы (CSAE). Мы также проводим анализ стабильности выбора функций в наших моделях и замечаем, что существует степенная зависимость с функциями, которые обычно связаны с выживанием. Код этого проекта доступен по адресу: https://github.com/phcavelar/coxae.

2. Powershap: мощный метод выбора функций Shapley (arXiv)

Автор:Ярн Верхаге, Йерун Ван Дер Донкт, Женщина Онгена, Софи Ван Хекке

Аннотация .Выбор функций — это важный шаг в разработке надежных и мощных моделей машинного обучения. Методы выбора признаков можно разделить на две категории: методы фильтрации и методы-оболочки. Хотя методы-оболочки обычно обеспечивают высокую производительность прогнозирования, они страдают от большой вычислительной сложности и, следовательно, требуют значительного времени для завершения, особенно при работе с многомерными наборами функций. В качестве альтернативы методы фильтрации значительно быстрее, но имеют ряд других недостатков, таких как (i) требование порогового значения, (ii) неучет взаимокорреляции между признаками и (iii) игнорирование взаимодействия признаков с моделью. С этой целью мы представляем powerhap, новый метод выбора признаков-оболочек, который использует статистическую проверку гипотез и расчеты мощности в сочетании со значениями Шепли для быстрого и интуитивно понятного выбора признаков. Powershap построен на основном предположении, что информативный признак будет иметь большее влияние на прогноз по сравнению с известным случайным признаком. Тесты и симуляции показывают, что powerhap превосходит другие методы фильтрации с прогнозируемой производительностью наравне с методами-оболочками, но при этом значительно быстрее, часто даже достигая половины или трети времени выполнения. Таким образом, powerhap предоставляет конкурентоспособный и быстрый алгоритм, который может использоваться различными моделями в разных областях. Кроме того, powershap реализован как компонент sklearn с открытым исходным кодом и технологией plug-and-play, что позволяет легко интегрировать его в традиционные конвейеры обработки данных. Пользовательский опыт еще больше улучшен за счет предоставления автоматического режима, который автоматически настраивает гиперпараметры алгоритма powershap, что позволяет использовать алгоритм без необходимости какой-либо настройки.

3. Изучение многофункционального выбора и объединения для классификации аудио (arXiv)

Автор: Мухаммад Тураб, Тират Кумар, Малика Бендечаче, Такфаринас Сабер

Вывод:алгоритмы глубокого обучения (DL) показали впечатляющую эффективность в различных областях. Среди них аудио привлекло многих исследователей за последние пару десятилетий из-за некоторых интересных закономерностей, особенно в классификации аудиоданных. Для повышения производительности классификации звука ключевую роль играют выбор и комбинация функций, поскольку они могут улучшить или испортить производительность любой модели DL. Чтобы исследовать эту роль, мы проводим обширную оценку производительности нескольких передовых моделей DL (например, Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine и Multi-Perceptron) с различными современными аудио функциями. (т. е. спектрограмма мел, кепстральные коэффициенты частоты мел и скорость пересечения нуля) либо независимо, либо в виде комбинации (т. е. посредством ансамбля) в трех разных наборах данных (т. ). В целом результаты показывают, что выбор признаков зависит как от набора данных, так и от модели. Однако комбинации функций должны быть ограничены только теми функциями, которые уже обеспечивают хорошие характеристики при индивидуальном использовании (например, в основном спектрограмма Мела, кепстральные коэффициенты частоты Мела). Такая комбинация / объединение функций позволила нам превзойти предыдущие современные результаты независимо от нашего выбора модели DL.