1. Определите потребности бизнеса и проблему машинного обучения.

Без какой-либо конкретной потребности или проблемы не существует решения. Чтобы иметь возможность работать над задачей, нужно убедиться, какие пробелы необходимо заполнить и какую проблему необходимо решить.

Вы пытаетесь спрогнозировать инвестиционную стратегию компании?
Или для строящегося дома необходимо спрогнозировать цену квартиры?

Четко определите свою проблему. Что это такое, а что нет, прежде чем начать заранее думать о решении.

Определите тип проблемы. Будь то проблема классификации или проблема регрессии. Если это контролируемая проблема обучения или неконтролируемая проблема.

2. Обмен данными

Этот шаг требует некоторых навыков работы с программным обеспечением, таких как pandas, предварительная обработка sklearn и хорошее понимание баз данных.

Очистка данных
-
включает обработку отсутствующих данных
-обработку зашумленных данных
-обнаружение и удаление выбросов (аномалий)

Интеграция данных-
-
Без большого объема данных сложно решить проблему машинного обучения. Данные должны быть обширными, разнообразными и соответствовать потребностям задачи.
Поскольку данные собираются из различных ресурсов, важно объединить их перед очисткой.

Преобразование данных-
-
Этот процесс, также известный как подготовка или предварительная обработка данных, заключается в преобразовании необработанных данных в указанный формат.
Без этого наша модель не сможет работать. делать точные прогнозы.

3. Изучите различные модели машинного обучения

Существует три типа моделей машинного обучения, из которых мы можем выбрать ту, которая подходит нам лучше всего.
Описательная – помогает понять, что произошло в прошлом. (Что случилось с пациентом?)

Предписывающий — для автоматизации бизнес-решений и процессов на основе данных. (Какие лекарства необходимы для излечения больного?)

Прогнозирование — для прогнозирования будущих бизнес-сценариев. (Каким еще заболеваниям подвержен больной?)

Некоторые модели ML, из которых мы можем выбирать:

я. Линейная регрессия с регуляризацией
ii. Логистическая регрессия
iii. K-ближайшие соседи
iv. Наивный Байес
v. Деревья решений, случайный лес
vi. XG Boost, CatBoost
vii. Нейронные сети

4. Точная настройка

После загрузки предварительно обученных моделей в память заморозьте параметры, чтобы они не менялись в будущих расчетах. Веса вашей предварительно обученной модели будут обучать новые данные.

5. Презентация

Без достоверных данных о том, почему вы решили проблему и насколько эффективно вы ее решили, сложно убедить вашего клиента и присоединиться к нему. Несмотря на то, что для машинного обучения требуются технические навыки, ключевым навыком остается умение сделать ваше решение убедительным.

6. Развертывание

После того как решение будет окончательно доработано, решите, хотите ли вы развернуть свое приложение внутри компании или в общедоступном месте, или вы хотите использовать веб-сайт.

7. Техническое обслуживание

Данные постоянно меняются и обновляются, а это значит, что модель не может простаивать. Ему необходимо предоставлять новые и будущие данные и обучаться.

Это были ключевые шаги решения проблемы ML.

Надеюсь это поможет. Удачи!
- Критика Шукла