Я давно подумывал о том, чтобы выбрать специальность AWS Machine Learning. Наконец, из-за карантина из-за Covid-19 я записываюсь на экзамен и начинаю учиться. Я получил ваучер на бесплатный экзамен AWS, присоединившись к сообществу AWS ML (я бы порекомендовал присоединиться всем, кто интересуется облачными вычислениями или ML, много отличных ресурсов и бесплатный подарок! Большое спасибо AWS) и забронировал самый ранний экзамен, который дал мне всего одну неделю на изучение. Я хочу посмотреть, насколько хорошо я смогу сдать экзамен, начиная с нуля и проучившись всего неделю. Я также должен работать в дневное время, поэтому я трачу в среднем 4 часа в будний день и около 12 часов в выходные, всего 32 часа на подготовку к экзамену.

Я сделал это намеренно, потому что обнаружил, что ограниченное время просмотра обычно помогает вам сосредоточиться на самых важных вещах. В прошлую пятницу я успешно сдал экзамен с результатом 970/1000 и хотел бы поделиться своим учебным пособием со всеми, кто планирует его сдавать. Это должно быть очень полезно, потому что все, что я поделился здесь ниже, с вероятностью 99% пропало на экзамене.

Как я учусь

В Интернете есть много обучающего видео, различных материалов, чтобы подготовить вас к экзамену, но если у вас недостаточно времени и каких-либо предыдущих знаний, я бы порекомендовал потратить свое время с умом и сосредоточиться только на сертифицированной Udemy AWS специальности машинного обучения. Курс Фрэнка Кейна 2021 года и практические вопросы по темам экзамена. Оба они относительно недороги (темы экзамена бесплатны), и я сдал экзамен, изучив только эти два + чтение документов AWS.

10-часовые видеоролики курса Udemy хорошо структурированы, вы можете пропустить лабораторную работу, так как они не будут проверяться на экзамене. Но я рекомендую посмотреть их, если у вас есть дополнительное время, так как они хороши для создания вашего будущего проекта AWS. Не пропускайте ни одно из нелабораторных видео, большая часть материала будет показана на экзамене.

В банке вопросов Exam Topics ML 131 вопрос, я вижу на экзамене не менее 15+ вопросов, которые точно такие же, как в банке вопросов, это будут ваши легкие баллы. Кроме того, банк вопросов охватывает 90% области знаний по экзаменационному тестированию. Я настоятельно рекомендую просмотреть банк вопросов не менее трех раз, прочитать обсуждение и подробно разобраться в каждом ответе. Имейте в виду, что многие ответы неверны, вам нужно внимательно прочитать обсуждение и выполнить поиск в документе AWS, чтобы найти правильный ответ. Я провел большую часть своего времени, просматривая банки вопросов и разбираясь в каждом вопросе, выполняя поиск в Интернете. Как только вы ответите на все вопросы, у вас есть хорошие шансы сдать экзамен.

Важная ключевая концепция

Вот самый важный раздел, я поделюсь некоторыми ключевыми понятиями, которые часто появляются на экзамене, и расскажу, насколько глубоко вы должны понимать, чтобы сдать его.

Инжиниринг данных

  • Клей

Когда вы видите ETL, Serverless, ответ с вероятностью 90% — Glue, вам нужно понять, как использовать GLUE в качестве ETL, как планировать рабочий процесс ETL, какие преобразования вы можете выполнять и какие другие службы вы можете интегрировать с GLUE. Клей часто появляется на экзамене в качестве тематического примера для разъединения приложения.

  • Семья Кинезис

Поймите, когда какой продукт Kineses использовать, как эти продукты интегрируются с другими сервисами (например, GLUE, EMR, Lamda). Что такое Shard и как вы можете использовать Kinesis Analytics для выполнения специальных преобразований. Когда вы видите потоковое вещание, просто ищите Kineses. Это тоже много раз всплывало на экзамене

  • Инструмент переноса данных

Поймите, когда использовать другой инструмент переноса данных: конвейер данных, DMS, EMR и т. д.

  • Преобразование ETL

Как объединить разные сервисы для разных рабочих процессов ETL, отвечающих различным требованиям ETL.

  • S3

Когда вы видите хранилище данных для машинного обучения, выберите S3. Узнайте о различных способах передачи данных в S3.

Исследовательский анализ данных

  • Отсутствует значение

Как справиться с отсутствующим значением, лучший вариант всегда с использованием метода увеличения данных ML

  • Данные дисбаланса

Используйте SMOTE, добавьте больший вес меньшему классу в метрике оценки, измените порог классификации

  • Выброс

Всегда выбирайте RCF

  • Визуализация

Понимать различные методы визуализации (диаграмма рассеяния, гистограмма и т. д.). Как читать график изгиба для ранней остановки. Используйте Amazon Quicksight для визуализации и панели мониторинга.

  • Преобразование данных

Используйте логарифмическое преобразование/бинирование числовых значений для искаженных данных

Понять кодировку One Hot, порядковые и номинальные данные

Нормализация и стандартизация для крупномасштабных данных

Моделирование

  • Встроенная модель

Разберитесь во всех встроенных Molde AWS, когда и какие использовать. Потратьте некоторое время на понимание BlazingText, Word2Vec, LDA, XGboost, Seq2Seq, которые часто встречаются на экзамене.

  • Настройка гиперпараметров

Узнайте, как выполнять настройку гиперпараметров и функции автоматической настройки AWS.

  • Оценка

Метрика классификации встречается часто, помните, как рассчитать полноту, точность, точность, чувствительность и для чего они используются. AUC для классификации, MAPE для регрессии

  • Переоснащение

Много вопросов о переоснащении, помните эти методы, чтобы помочь переоснащению

Уменьшить максимальную глубину в дереве

Нижний номер слоя

Включить отсев

Ранняя остановка

Примените регуляризацию L1 или L2 и отсев к обучению

Уменьшите количество комбинаций функций.

Для недообучения получите больше данных за счет увеличения данных

  • Запустите свой собственный код/изображение/докер

Это также часто встречается на экзамене, как запустить свой собственный код/изображение/докер в sagemaker. Читать документацию

  • Служба искусственного интеллекта

Помните разные сервисы ИИ AWS и их возможности, много вопросов о том, как объединить эти сервисы ИИ вместе для создания приложения.

Внедрение машинного обучения и операции

  • Развертывание модели

Понять, что такое Elastic inference, Sagemaker Neo, развертывание в нескольких зонах доступности путем развертывания более 1 экземпляра и как выполнять автоматическое масштабирование (знать концепцию прохладного простоя).

  • А/Б тест

Знать, как развернуть вывод нескольких моделей в одной и той же конечной точке для тестирования AB.

  • Безопасность

Много вопросов, связанных с безопасностью, помните концепцию доступа к Sagemaker через конечную точку VPC, доступ к S3 через конечную точку S3, настройку EnableNetworkIsolation в блокноте Sagemaker. И понять, как работают IAM, политика сегментов S3, политика конечных точек, группа безопасности и KMS.

Важно!! Вещи, которые появятся на экзамене, никто вам не скажет, и вам просто нужно запомнить.

  • Клей Закладка
  • Seq2Seq использует механизм внимания для оптимизации длинных предложений
  • Персонализируйте использование отслеживания событий, чтобы учиться на последних данных
  • Полли, использующая словари, позволяет настраивать определенные слова/аббревиатуры на то, как они будут произноситься.
  • Прогноз AWS может оптимизировать использование PerformAutoML и Perform HPO.
  • Как обновить версию JupterNotebook
  • Объяснимость SHAP ML
  • Склеить нечеткое соответствие
  • Как избежать признания AWS, используя ваши данные, чтобы улучшить свое обучение
  • Tensorflow распространяется в Sagemaker фреймворком Horovod
  • Произвольный вырезанный лес Amazon Kinesis Data Analytics (RCF)
  • Преобразование FindMatch ML с использованием клея
  • Стратифицированная k-кратная перекрестная проверка для несбалансированной классификации
  • LDA для кластеризации клиентов
  • Трансферное обучение
  • Читать заговор локтя
  • УДАР

Надеюсь, этот блог поможет вам сдать сертификационный экзамен!

Спасибо за чтение, и я с нетерпением жду ваших вопросов и мыслей. Если вы хотите узнать больше о науке о данных и облачных вычислениях, вы можете найти меня на Linkedin.