Я давно подумывал о том, чтобы выбрать специальность AWS Machine Learning. Наконец, из-за карантина из-за Covid-19 я записываюсь на экзамен и начинаю учиться. Я получил ваучер на бесплатный экзамен AWS, присоединившись к сообществу AWS ML (я бы порекомендовал присоединиться всем, кто интересуется облачными вычислениями или ML, много отличных ресурсов и бесплатный подарок! Большое спасибо AWS) и забронировал самый ранний экзамен, который дал мне всего одну неделю на изучение. Я хочу посмотреть, насколько хорошо я смогу сдать экзамен, начиная с нуля и проучившись всего неделю. Я также должен работать в дневное время, поэтому я трачу в среднем 4 часа в будний день и около 12 часов в выходные, всего 32 часа на подготовку к экзамену.
Я сделал это намеренно, потому что обнаружил, что ограниченное время просмотра обычно помогает вам сосредоточиться на самых важных вещах. В прошлую пятницу я успешно сдал экзамен с результатом 970/1000 и хотел бы поделиться своим учебным пособием со всеми, кто планирует его сдавать. Это должно быть очень полезно, потому что все, что я поделился здесь ниже, с вероятностью 99% пропало на экзамене.
Как я учусь
В Интернете есть много обучающего видео, различных материалов, чтобы подготовить вас к экзамену, но если у вас недостаточно времени и каких-либо предыдущих знаний, я бы порекомендовал потратить свое время с умом и сосредоточиться только на сертифицированной Udemy AWS специальности машинного обучения. Курс Фрэнка Кейна 2021 года и практические вопросы по темам экзамена. Оба они относительно недороги (темы экзамена бесплатны), и я сдал экзамен, изучив только эти два + чтение документов AWS.
10-часовые видеоролики курса Udemy хорошо структурированы, вы можете пропустить лабораторную работу, так как они не будут проверяться на экзамене. Но я рекомендую посмотреть их, если у вас есть дополнительное время, так как они хороши для создания вашего будущего проекта AWS. Не пропускайте ни одно из нелабораторных видео, большая часть материала будет показана на экзамене.
В банке вопросов Exam Topics ML 131 вопрос, я вижу на экзамене не менее 15+ вопросов, которые точно такие же, как в банке вопросов, это будут ваши легкие баллы. Кроме того, банк вопросов охватывает 90% области знаний по экзаменационному тестированию. Я настоятельно рекомендую просмотреть банк вопросов не менее трех раз, прочитать обсуждение и подробно разобраться в каждом ответе. Имейте в виду, что многие ответы неверны, вам нужно внимательно прочитать обсуждение и выполнить поиск в документе AWS, чтобы найти правильный ответ. Я провел большую часть своего времени, просматривая банки вопросов и разбираясь в каждом вопросе, выполняя поиск в Интернете. Как только вы ответите на все вопросы, у вас есть хорошие шансы сдать экзамен.
Важная ключевая концепция
Вот самый важный раздел, я поделюсь некоторыми ключевыми понятиями, которые часто появляются на экзамене, и расскажу, насколько глубоко вы должны понимать, чтобы сдать его.
Инжиниринг данных
- Клей
Когда вы видите ETL, Serverless, ответ с вероятностью 90% — Glue, вам нужно понять, как использовать GLUE в качестве ETL, как планировать рабочий процесс ETL, какие преобразования вы можете выполнять и какие другие службы вы можете интегрировать с GLUE. Клей часто появляется на экзамене в качестве тематического примера для разъединения приложения.
- Семья Кинезис
Поймите, когда какой продукт Kineses использовать, как эти продукты интегрируются с другими сервисами (например, GLUE, EMR, Lamda). Что такое Shard и как вы можете использовать Kinesis Analytics для выполнения специальных преобразований. Когда вы видите потоковое вещание, просто ищите Kineses. Это тоже много раз всплывало на экзамене
- Инструмент переноса данных
Поймите, когда использовать другой инструмент переноса данных: конвейер данных, DMS, EMR и т. д.
- Преобразование ETL
Как объединить разные сервисы для разных рабочих процессов ETL, отвечающих различным требованиям ETL.
- S3
Когда вы видите хранилище данных для машинного обучения, выберите S3. Узнайте о различных способах передачи данных в S3.
Исследовательский анализ данных
- Отсутствует значение
Как справиться с отсутствующим значением, лучший вариант всегда с использованием метода увеличения данных ML
- Данные дисбаланса
Используйте SMOTE, добавьте больший вес меньшему классу в метрике оценки, измените порог классификации
- Выброс
Всегда выбирайте RCF
- Визуализация
Понимать различные методы визуализации (диаграмма рассеяния, гистограмма и т. д.). Как читать график изгиба для ранней остановки. Используйте Amazon Quicksight для визуализации и панели мониторинга.
- Преобразование данных
Используйте логарифмическое преобразование/бинирование числовых значений для искаженных данных
Понять кодировку One Hot, порядковые и номинальные данные
Нормализация и стандартизация для крупномасштабных данных
Моделирование
- Встроенная модель
Разберитесь во всех встроенных Molde AWS, когда и какие использовать. Потратьте некоторое время на понимание BlazingText, Word2Vec, LDA, XGboost, Seq2Seq, которые часто встречаются на экзамене.
- Настройка гиперпараметров
Узнайте, как выполнять настройку гиперпараметров и функции автоматической настройки AWS.
- Оценка
Метрика классификации встречается часто, помните, как рассчитать полноту, точность, точность, чувствительность и для чего они используются. AUC для классификации, MAPE для регрессии
- Переоснащение
Много вопросов о переоснащении, помните эти методы, чтобы помочь переоснащению
Уменьшить максимальную глубину в дереве
Нижний номер слоя
Включить отсев
Ранняя остановка
Примените регуляризацию L1 или L2 и отсев к обучению
Уменьшите количество комбинаций функций.
Для недообучения получите больше данных за счет увеличения данных
- Запустите свой собственный код/изображение/докер
Это также часто встречается на экзамене, как запустить свой собственный код/изображение/докер в sagemaker. Читать документацию
- Служба искусственного интеллекта
Помните разные сервисы ИИ AWS и их возможности, много вопросов о том, как объединить эти сервисы ИИ вместе для создания приложения.
Внедрение машинного обучения и операции
- Развертывание модели
Понять, что такое Elastic inference, Sagemaker Neo, развертывание в нескольких зонах доступности путем развертывания более 1 экземпляра и как выполнять автоматическое масштабирование (знать концепцию прохладного простоя).
- А/Б тест
Знать, как развернуть вывод нескольких моделей в одной и той же конечной точке для тестирования AB.
- Безопасность
Много вопросов, связанных с безопасностью, помните концепцию доступа к Sagemaker через конечную точку VPC, доступ к S3 через конечную точку S3, настройку EnableNetworkIsolation в блокноте Sagemaker. И понять, как работают IAM, политика сегментов S3, политика конечных точек, группа безопасности и KMS.
Важно!! Вещи, которые появятся на экзамене, никто вам не скажет, и вам просто нужно запомнить.
- Клей Закладка
- Seq2Seq использует механизм внимания для оптимизации длинных предложений
- Персонализируйте использование отслеживания событий, чтобы учиться на последних данных
- Полли, использующая словари, позволяет настраивать определенные слова/аббревиатуры на то, как они будут произноситься.
- Прогноз AWS может оптимизировать использование PerformAutoML и Perform HPO.
- Как обновить версию JupterNotebook
- Объяснимость SHAP ML
- Склеить нечеткое соответствие
- Как избежать признания AWS, используя ваши данные, чтобы улучшить свое обучение
- Tensorflow распространяется в Sagemaker фреймворком Horovod
- Произвольный вырезанный лес Amazon Kinesis Data Analytics (RCF)
- Преобразование FindMatch ML с использованием клея
- Стратифицированная k-кратная перекрестная проверка для несбалансированной классификации
- LDA для кластеризации клиентов
- Трансферное обучение
- Читать заговор локтя
- УДАР
Надеюсь, этот блог поможет вам сдать сертификационный экзамен!
Спасибо за чтение, и я с нетерпением жду ваших вопросов и мыслей. Если вы хотите узнать больше о науке о данных и облачных вычислениях, вы можете найти меня на Linkedin.