Оперативное машинное обучение на GCP

Введение

В современном бизнесе почти каждая компания либо уже использует машинное обучение (ML), либо использует термины ML или AI в своей дорожной карте. Благодаря облачным вычислениям, позволяющим свести к минимуму время, деньги и ресурсы, необходимые для начала работы, мы наблюдаем более широкое внедрение и демократизацию машинного обучения. Необходимые навыки для разработки алгоритмов машинного обучения наводняют рабочую силу, и корпорации чувствуют внутреннее давление, чтобы использовать эти изменяющие жизнь технологические достижения.

По мере роста давления корпорации по всему миру вкладывают значительные средства в передовые аналитические решения либо для решения своих самых насущных бизнес-проблем, либо для персонализации клиентского опыта, либо для расширения интеллектуальных возможностей своего продукта. Тем не менее, несмотря на всю эту шумиху, Venture Beat сообщает, что более 87% проектов по науке о данных никогда не переходят в производство. Это поразительное число, которое показывает, как много корпораций идут по пути ML, но не имеют средств для полноценной реализации.

Задачи

Мы определили следующие проблемы, которые мешают компании внедрить машинное обучение:

Проблемы развертывания. В традиционных ИТ поведение системы определяется кодом. В ML поведение определяется данными. Это добавляет дополнительные риски, которые необходимо минимизировать.
Плохое управление данными. Поскольку профили данных со временем развиваются, модели машинного обучения подвержены деградации.
Отсутствие автоматизации. Без внедрения автоматизированного мониторинга и переобучения модель можно развернуть один раз и больше никогда не обновлять. В конечном итоге страдает от деградации модели.
Доверие к результатам машинного обучения. Результаты «черного ящика» создают препятствия для доверия руководителей и лиц, принимающих решения, к результатам модели машинного обучения.
Несовершенная система обучения. Программы бакалавриата, магистратуры и учебных курсов не учат студентов развертывать модели в рабочей среде. Предприятия обычно назначают команду специалистов по данным или исследователей машинного обучения для разработки своих решений машинного обучения, хотя из-за того, чему учат в высших учебных заведениях, большинство практикующих специалистов по машинному обучению не оттачивают навыки разработки программного обеспечения, необходимые для создания сервисов производственного класса.

В результате вышеперечисленных проблем большинство организаций находятся на левой стороне кривой внедрения машинного обучения. Там, где компании либо используют машинное обучение для специального анализа и предоставляют результаты с помощью ручных отчетов, либо команда специалистов по данным занимается ручным запуском своих конвейеров машинного обучения для получения прогнозов.

Решение: MLOps

MLOps — это пересечение машинного обучения (обработка данных, развертывание моделей, оценка метрик), разработки (CI/CD, интеграция моделей, тестирование) и операций (переобучение конвейеров, непрерывный мониторинг, доставка моделей). MLOps — это больше, чем просто создание причудливых алгоритмов, к которым привыкло большинство специалистов по машинному обучению. Речь идет о внедрении вспомогательного набора технологий для контроля, управления и мониторинга ваших рабочих нагрузок машинного обучения. В дополнение к типичному процессу CI/CD, который вы найдете в корпоративных практиках DevOps, Machine Learning Operations добавляет к уравнению CT и CM:

Непрерывное обучение (CT): развертывание пакетов для автоматического повторного обучения и обслуживания моделей по мере снижения производительности рабочей модели или сбора новых данных.
Непрерывный мониторинг (CM):системы и отчеты для постоянного мониторинга входных данных, текущей производительности модели по сравнению с тестовыми версиями и объяснимого ИИ для уменьшения предвзятости и обеспечения справедливости.

К счастью, Google Cloud Platform предоставляет набор сервисов, которые помогают упростить управление системами машинного обучения в масштабе. Ниже приведена диаграмма, показывающая, какие инструменты можно использовать во всех аспектах системы машинного обучения производственного уровня.

Как реализовать

Для компаний, которые хотят перейти от ручного обслуживания моделей и нечастых обновлений моделей, ML Pipeline Automation — это естественный способ подняться на новый уровень. Это требует разделения обучения и обслуживания, а также среды разработки и производства. Жизнь в среде обучения (над красной линией) — это все рабочие процессы пакетов разработки моделей и пакеты конвейеров обучения. В этой среде команда специалистов по обработке и анализу данных будет совместно разрабатывать модели машинного обучения и проверять их производительность перед масштабным обучением и запуском в производство. Весь их код можно совместно использовать и повторно использовать в репозитории исходного кода, таком как Gitlab, и упаковывать для переобучения по мере поступления новых данных.

В обслуживающей среде данные приложения принимаются и сохраняются в нашем хранилище функций, а затем проходят через конвейер обслуживания модели для вывода в реальном времени. Прогнозы модели затем доставляются обратно в бизнес-приложение, а также в хранилище данных (BigQuery). Подключение инструмента отчетности к нашим хранилищам данных позволяет нам предоставлять отчеты для бизнеса, а также панели мониторинга машинного обучения. Используя протокол оповещения, мы можем уведомить команду специалистов по обработке и анализу данных в любое время, когда базовые данные коренным образом изменяются или если мы сталкиваемся с дрейфом модели.

Более продвинутые компании или компании с продуктом, который должен постоянно обновляться, могут захотеть реализовать полностью автоматизированный конвейер с интеграцией CI/CD. Эта реализация, как показано ниже, похожа на ML Pipeline Automation, но устанавливает надежную автоматизированную систему CI/CD. В этой архитектуре специалисты по данным могут быстро исследовать данные и экспериментировать с новыми моделями. Когда они вносят изменения в свои конвейеры машинного обучения, они могут автоматически создавать, тестировать и развертывать новые компоненты конвейера в целевой среде.

На следующей диаграмме показана реализация конвейера машинного обучения с использованием CI/CD, которая имеет характеристики автоматической настройки конвейеров машинного обучения плюс автоматизированные процедуры CI/CD.

Ускорители MLOps:

Правильная архитектура Operational ML как часть экосистемы приложений так же важна, как ядро для операционной системы. Это обеспечивает неограниченную архитектуру, постоянные инновации и адаптируемые компоненты, которые можно добавлять или выпускать по мере изменения бизнеса. Pandera предлагает каталог шаблонных инструментов отчетности в дополнение к операциям машинного обучения на Google Cloud Platform. Панели создаются с помощью Looker и охватывают следующие темы:

Мониторинг данных. Отслеживая данные, организации могут более точно оценивать свои модели и знать, когда их нужно переобучить. Используя встроенные в Looker возможности оповещения, специалисты по обработке и анализу данных могут автоматически уведомлять заинтересованные стороны при обнаружении значительных отклонений от нормы. Данные мониторинга также позволяют командам проводить ретроспективный анализ выбросов и потенциально выявлять ошибки в вышестоящих процессах.
Мониторинг модели. Хранение всех результатов прогнозирования модели в BigQuery и внедрение системы обратной связи с участием человека в цикле позволяет командам специалистов по обработке и анализу данных получать отчеты о непрерывной производительности модели. Непрерывные оценки служат для выявления работоспособности модели с течением времени, поскольку она может дрейфовать в зависимости от меняющихся данных и условий. Когда производительность снижается выше установленного порога, рассылаются оповещения, чтобы привлечь внимание к проблеме. Затем специалист по данным может провести расследование, чтобы обнаружить причину и устранить проблему. Зрелые группы Data Science могут установить триггер для автоматической переобучения модели, а не оповещения.
Объяснение AI: GCP предоставляет услуги и платформу для извлечения объяснений из ваших моделей машинного обучения. Мы предоставляем вам чистый интерфейс для просмотра этих объяснений. Инструментальные панели объяснимого ИИ предоставляют специалистам по данным средства для интерпретации прогнозов, сделанных их моделями машинного обучения, для отладки, улучшения моделей и помощи заинтересованным сторонам в понимании поведения их моделей. На этой панели вы можете просмотреть атрибуты функций в сравнении с агрегированными прогнозами, отдельными прогнозами или использовать симуляцию «что, если» для исследования поведения модели на основе переменных входных данных.
Умная аналитика. Мы создали серию умных приложений (панелей мониторинга), предназначенных для определенных горизонтальных и вертикальных отраслевых пересечений. Цель интеллектуальных приложений — быстро превратить ваши данные в интеллектуальные метрики для активации интеллектуальных сигналов, ведущих к интеллектуальным действиям. Smart Analytics Playbook позволяет организациям быстрее получать аналитические сведения, которые обеспечивают предписывающие действия на основе машинного обучения, которые предвосхищают то, что вам нужно знать дальше, и предоставляют вам наиболее актуальные ответы для вашего бизнеса. Используя корпоративные данные и выходные данные машинного обучения в GCP, мы можем дополнить интеллектуальные возможности простым развертыванием стека Smart Analytics. Устраните барьер на пути к масштабируемой и действенной аналитике и начните предпринимать разумные действия, которые позволят вам повысить эффективность бизнеса.

Посмотреть видео-презентацию на эту тему можно здесь: https://cloudonair.withgoogle.com/events/operational-machine-learning

Pandera Systems — узкоспециализированная аналитическая и технологическая консалтинговая компания, основное внимание которой уделяется разработке решений, основанных на данных. В качестве сертифицированного партнера Google мы объединяем самых передовых инженеров-программистов, специалистов по данным и технологов, чтобы помочь трансформировать ведущие мировые бренды.

Посетите нас по адресу: http://panderasystems.com/

Оперативное машинное обучение на GCP

Похожие вопросы