Как пройти специальность AWS по машинному обучению за неделю

Я давно подумывал о том, чтобы выбрать специальность AWS Machine Learning. Наконец, из-за карантина из-за Covid-19 я записываюсь на экзамен и начинаю учиться. Я получил ваучер на бесплатный экзамен AWS, присоединившись к сообществу AWS ML (я бы порекомендовал присоединиться всем, кто интересуется облачными вычислениями или ML, много отличных ресурсов и бесплатный подарок! Большое спасибо AWS) и забронировал самый ранний экзамен, который дал мне всего одну неделю на изучение. Я хочу посмотреть, насколько хорошо я смогу сдать экзамен, начиная с нуля и проучившись всего неделю. Я также должен работать в дневное время, поэтому я трачу в среднем 4 часа в будний день и около 12 часов в выходные, всего 32 часа на подготовку к экзамену.

Я сделал это намеренно, потому что обнаружил, что ограниченное время просмотра обычно помогает вам сосредоточиться на самых важных вещах. В прошлую пятницу я успешно сдал экзамен с результатом 970/1000 и хотел бы поделиться своим учебным пособием со всеми, кто планирует его сдавать. Это должно быть очень полезно, потому что все, что я поделился здесь ниже, с вероятностью 99% пропало на экзамене.

Как я учусь

В Интернете есть много обучающего видео, различных материалов, чтобы подготовить вас к экзамену, но если у вас недостаточно времени и каких-либо предыдущих знаний, я бы порекомендовал потратить свое время с умом и сосредоточиться только на сертифицированной Udemy AWS специальности машинного обучения. Курс Фрэнка Кейна 2021 года и практические вопросы по темам экзамена. Оба они относительно недороги (темы экзамена бесплатны), и я сдал экзамен, изучив только эти два + чтение документов AWS.

10-часовые видеоролики курса Udemy хорошо структурированы, вы можете пропустить лабораторную работу, так как они не будут проверяться на экзамене. Но я рекомендую посмотреть их, если у вас есть дополнительное время, так как они хороши для создания вашего будущего проекта AWS. Не пропускайте ни одно из нелабораторных видео, большая часть материала будет показана на экзамене.

В банке вопросов Exam Topics ML 131 вопрос, я вижу на экзамене не менее 15+ вопросов, которые точно такие же, как в банке вопросов, это будут ваши легкие баллы. Кроме того, банк вопросов охватывает 90% области знаний по экзаменационному тестированию. Я настоятельно рекомендую просмотреть банк вопросов не менее трех раз, прочитать обсуждение и подробно разобраться в каждом ответе. Имейте в виду, что многие ответы неверны, вам нужно внимательно прочитать обсуждение и выполнить поиск в документе AWS, чтобы найти правильный ответ. Я провел большую часть своего времени, просматривая банки вопросов и разбираясь в каждом вопросе, выполняя поиск в Интернете. Как только вы ответите на все вопросы, у вас есть хорошие шансы сдать экзамен.

Важная ключевая концепция

Вот самый важный раздел, я поделюсь некоторыми ключевыми понятиями, которые часто появляются на экзамене, и расскажу, насколько глубоко вы должны понимать, чтобы сдать его.

Инжиниринг данных

Клей

Когда вы видите ETL, Serverless, ответ с вероятностью 90% — Glue, вам нужно понять, как использовать GLUE в качестве ETL, как планировать рабочий процесс ETL, какие преобразования вы можете выполнять и какие другие службы вы можете интегрировать с GLUE. Клей часто появляется на экзамене в качестве тематического примера для разъединения приложения.

Семья Кинезис

Поймите, когда какой продукт Kineses использовать, как эти продукты интегрируются с другими сервисами (например, GLUE, EMR, Lamda). Что такое Shard и как вы можете использовать Kinesis Analytics для выполнения специальных преобразований. Когда вы видите потоковое вещание, просто ищите Kineses. Это тоже много раз всплывало на экзамене

Инструмент переноса данных

Поймите, когда использовать другой инструмент переноса данных: конвейер данных, DMS, EMR и т. д.

Преобразование ETL

Как объединить разные сервисы для разных рабочих процессов ETL, отвечающих различным требованиям ETL.

Когда вы видите хранилище данных для машинного обучения, выберите S3. Узнайте о различных способах передачи данных в S3.

Исследовательский анализ данных

Отсутствует значение

Как справиться с отсутствующим значением, лучший вариант всегда с использованием метода увеличения данных ML

Данные дисбаланса

Используйте SMOTE, добавьте больший вес меньшему классу в метрике оценки, измените порог классификации

Выброс

Всегда выбирайте RCF

Визуализация

Понимать различные методы визуализации (диаграмма рассеяния, гистограмма и т. д.). Как читать график изгиба для ранней остановки. Используйте Amazon Quicksight для визуализации и панели мониторинга.

Преобразование данных

Используйте логарифмическое преобразование/бинирование числовых значений для искаженных данных

Понять кодировку One Hot, порядковые и номинальные данные

Нормализация и стандартизация для крупномасштабных данных

Моделирование

Встроенная модель

Разберитесь во всех встроенных Molde AWS, когда и какие использовать. Потратьте некоторое время на понимание BlazingText, Word2Vec, LDA, XGboost, Seq2Seq, которые часто встречаются на экзамене.

Настройка гиперпараметров

Узнайте, как выполнять настройку гиперпараметров и функции автоматической настройки AWS.

Оценка

Метрика классификации встречается часто, помните, как рассчитать полноту, точность, точность, чувствительность и для чего они используются. AUC для классификации, MAPE для регрессии

Переоснащение

Много вопросов о переоснащении, помните эти методы, чтобы помочь переоснащению

Уменьшить максимальную глубину в дереве

Нижний номер слоя

Включить отсев

Ранняя остановка

Примените регуляризацию L1 или L2 и отсев к обучению

Уменьшите количество комбинаций функций.

Для недообучения получите больше данных за счет увеличения данных

Запустите свой собственный код/изображение/докер

Это также часто встречается на экзамене, как запустить свой собственный код/изображение/докер в sagemaker. Читать документацию

Служба искусственного интеллекта

Помните разные сервисы ИИ AWS и их возможности, много вопросов о том, как объединить эти сервисы ИИ вместе для создания приложения.

Внедрение машинного обучения и операции

Развертывание модели

Понять, что такое Elastic inference, Sagemaker Neo, развертывание в нескольких зонах доступности путем развертывания более 1 экземпляра и как выполнять автоматическое масштабирование (знать концепцию прохладного простоя).

А/Б тест

Знать, как развернуть вывод нескольких моделей в одной и той же конечной точке для тестирования AB.

Безопасность

Много вопросов, связанных с безопасностью, помните концепцию доступа к Sagemaker через конечную точку VPC, доступ к S3 через конечную точку S3, настройку EnableNetworkIsolation в блокноте Sagemaker. И понять, как работают IAM, политика сегментов S3, политика конечных точек, группа безопасности и KMS.

Важно!! Вещи, которые появятся на экзамене, никто вам не скажет, и вам просто нужно запомнить.

Клей Закладка
Seq2Seq использует механизм внимания для оптимизации длинных предложений
Персонализируйте использование отслеживания событий, чтобы учиться на последних данных
Полли, использующая словари, позволяет настраивать определенные слова/аббревиатуры на то, как они будут произноситься.
Прогноз AWS может оптимизировать использование PerformAutoML и Perform HPO.
Как обновить версию JupterNotebook
Объяснимость SHAP ML
Склеить нечеткое соответствие
Как избежать признания AWS, используя ваши данные, чтобы улучшить свое обучение
Tensorflow распространяется в Sagemaker фреймворком Horovod
Произвольный вырезанный лес Amazon Kinesis Data Analytics (RCF)
Преобразование FindMatch ML с использованием клея
Стратифицированная k-кратная перекрестная проверка для несбалансированной классификации
LDA для кластеризации клиентов
Трансферное обучение
Читать заговор локтя
УДАР

Надеюсь, этот блог поможет вам сдать сертификационный экзамен!

Спасибо за чтение, и я с нетерпением жду ваших вопросов и мыслей. Если вы хотите узнать больше о науке о данных и облачных вычислениях, вы можете найти меня на Linkedin.