Подпишитесь на нашу рассылку, чтобы никогда не пропускать публикации статей. Вы также получите полную памятку по машинному обучению Python, единственную памятку по машинному обучению, которую вы когда-либо получали!!

В предыдущей статье я рассказал о том, как стать инженером по машинному обучению, а на последнем этапе я кратко рассказал о создании проектов машинного обучения, а также о типах проектов машинного обучения, в которых вы должны участвовать. В сегодняшней статье я расскажет о 5 проектах для начинающих, которые вы можете выполнить за неделю!

Важно знать, что при создании проектов машинного обучения очень важно анализировать наборы данных. Это позволяет вам проверять наличие несоответствий и несоответствий в наборах данных (какими они будут).

Вы также узнаете, как создавать свои наборы данных, что в основном означает, что вы используете свои существующие знания в этой области для редактирования своего набора данных, например, вы анализируете набор медицинских данных и замечаете, что ИМТ человека равен 0. Теперь мы все знают, что для живых людей ИМТ никогда не может быть равен 0.

Теперь, когда мы разобрались с этим, давайте сразу перейдем к списку:

Прогнозирование вероятности диабета. Диабет – это хроническое заболевание, связанное с повышенным уровнем сахара в крови в организме. Диабет часто приводит к сердечно-сосудистым заболеваниям, инсульту, повреждению почек и долговременному повреждению конечностей (то есть конечностей и глаз).

Одним из препятствий на пути раннего выявления и диагностики диабета является то, что ранние стадии диабета часто протекают бессимптомно. Люди, которые находятся на пути к диабету (также известному как предиабет), часто не знают, что у них диабет, пока не становится слишком поздно. Ценность искусственного интеллекта в здравоохранении заключается не в замене врачей и других медицинских работников, а в расширении их деятельности. ИИ может поддерживать медицинских работников на протяжении всего пути пациента и помогать медицинским работникам получать информацию о благополучии пациента с использованием данных.

Набор данных о сахарном диабете, предоставленный для этого проекта здесь, взят из набора данных о диабете индейцев пима, предоставленного Национальным институтом диабета, болезней пищеварения и почек. В этом проекте вы научитесь исследовать данные, строя различные графики, такие как гистограммы, узнаете, как разбивать данные на наборы данных для обучения, тестирования и проверки, научитесь строить многослойную модель персептрона и выполнять анализ результатов.

Прогнозирование стоимости такси в Нью-Йорке.Желтые такси в Нью-Йорке, пожалуй, одни из самых узнаваемых символов города. Десятки тысяч пассажиров в Нью-Йорке полагаются на такси как на средство передвижения по городу. В последние годы индустрия такси в городе подвергается все большему давлению со стороны приложений для заказа поездок, таких как Uber, Lyft и т. Д. В августе 2018 года городская комиссия по лимузинам запустила приложение, которое позволяет людям заказывать желтое такси. со своих телефонов. В этом проекте вы узнаете, как создать алгоритм для обеспечения справедливого ценообразования заранее, что не так просто.

Алгоритм должен учитывать различные переменные среды, такие как время суток, условия движения, места посадки и высадки, чтобы сделать точный достоверный прогноз. Набор данных, который вы должны использовать для этого проекта, — это набор данных о тарифах на такси в Нью-Йорке, предоставленный Kaggle, ссылку на который я приведу здесь. Набор данных предоставляет интересную возможность использовать большие наборы данных в проектах машинного обучения, а также для визуализации данных геолокации.

Cats_vs_Dogs Image Classification:Computer Vision — это инженерная область, целью которой является создание программ, которые могут извлекать смысл из изображений. Исследователи компьютерного зрения работали над обработкой сигналов, распознаванием объектов и т. д. В классификации изображений входными данными для задачи является изображение, а требуемый результат — просто предсказание класса, к которому принадлежит изображение. В этом проекте вы изучите базовую архитектуру сверточных нейронных сетей (CNN). Набор данных предоставлен Microsoft, и я приведу ссылку прямо здесь.

Предсказание плохих или хороших отзывов о фильмах. При создании этого проекта вы узнаете о LSTM (долгосрочная кратковременная память) и RNN (рекуррентная нейронная сеть) и о том, как их можно использовать в последовательных задачах, таких как обработка естественного языка (NLP). Вы разработаете и обучите сеть LSTM прогнозировать настроение обзоров фильмов на IMDB, а я свяжу набор данных прямо здесь.

Удаление шума из изображений. Автоэнкодер — это тип нейронной сети, используемый для обучения эффективному кодированию данных без присмотра. Автоэнкодеры изучают скрытое представление ввода. Это представление обычно представляет собой сжатое представление исходного ввода. Все автоэнкодеры имеют кодировщик и декодер. Роль кодировщика состоит в том, чтобы кодировать входные данные в изученное сжатое представление, а роль декодера — в восстановлении исходных входных данных с использованием сжатого представления. Мы можем использовать автоэнкодеры для сжатия данных (например, для преобразования изображений в jpg), а также вы можете использовать автоэнкодеры для удаления шума из изображений. Для этого проекта рассмотрите возможность использования набора данных рукописных цифр mnist, предоставленного TensorFlow, ссылку на который я приведу здесь.

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord .

Заинтересованы в масштабировании запуска вашего программного обеспечения? Ознакомьтесь с разделом Схема.