Цель
Это первая глава нового проекта по науке о данных, над которым мы будем работать в течение следующих нескольких дней, недель, месяцев или навсегда. Намерение здесь состоит в том, чтобы построить этот проект как часть моего портфолио, изучая новые вещи каждый день, поэтому изменения могут быть внесены в базу кода после того, как я закончу эту документацию, но я постараюсь как можно больше добавлять новые сообщения по мере этих обновлений. случаться.
Проект
Представьте, что вы специалист по данным, работающий в компании, которая покупает дома, чтобы продать их в будущем с максимальной прибылью. Если вы сможете делать хорошие прогнозы, вас, вероятно, повысят в ближайшие несколько дней или вы даже сможете начать свой собственный бизнес, поэтому в ходе этого проекта мы собираемся ответить на несколько вопросов, таких как:
- Какой дом мне следует купить и как долго я должен ждать, чтобы продать только что купленный дом?
- Учитывая период времени, в течение которого я могу подождать с продажей дома, какой дом мне следует купить? Что произойдет, если я добавлю ограничение бюджета?
Конечно, мы, вероятно, обнаружим и другие вопросы по пути, но это основные вопросы, которые мы собираемся решить.
[Изменить] Примечание. К сожалению, из-за ограничений набора данных мы не смогли построить модель прогноза, чтобы ответить на эти вопросы в Части IV этой серии. Таким образом, мы фактически отвечаем на простой вопрос, чтобы помочь нашей компании: учитывая набор характеристик дома, за сколько я должен купить или продать его?
Набор данных
Для этого конкретного проекта мы будем использовать набор данных Продажи домов в округе Кинг, доступный на Kaggle. Этот набор данных содержит несколько столбцов, относящихся к характеристикам дома, таким как цена, количество спален, ванных комнат и т. д.
Чтобы объяснить каждую переменную, представленную в наборе данных, я буду ссылаться на этот пост Мурильо. Я просто скопирую и вставлю приведенные ниже описания на случай, если его страница будет удалена по какой-либо причине в будущем:
id - Unique ID for each home sold date - Date of the home sale price - Price of each home sold bedrooms - Number of bedrooms bathrooms - Number of bathrooms, where .5 accounts for a room with a toilet but no shower sqft_living - Square footage of the apartments interior living space sqft_lot - Square footage of the land space floors - Number of floors waterfront - A dummy variable for whether the apartment was overlooking the waterfront or not view - An index from 0 to 4 of how good the view of the property was condition - An index from 1 to 5 on the condition of the apartment, grade - An index from 1 to 13, where 1-3 falls short of building construction and design, 7 has an average level of construction and design, and 11-13 have a high quality level of construction and design. sqft_above - The square footage of the interior housing space that is above ground level sqft_basement - The square footage of the interior housing space that is below ground level yr_built - The year the house was initially built yr_renovated - The year of the house’s last renovation zipcode - What zipcode area the house is in lat - Lattitude long - Longitude sqft_living15 - The square footage of interior housing living space for the nearest 15 neighbors sqft_lot15 - The square footage of the land lots of the nearest 15 neighbors
Окружающая среда
Для разработки этого проекта я буду использовать виртуальную среду Python, созданную с помощью некоторых советов, данных Гатри в этом посте. Проект будет доступен на моем GitHub.
Изначально у нас будет следующее дерево проекта:
project/ ├── data/ │ ├── raw/ │ │ ├── kc_house_data.csv ├── requirements.txt └── README.md
- В каталоге data/raw мы будем сохранять исходный необработанный набор данных.
- Файл requirements.txt содержит некоторые зависимости Python, которые будут использоваться.
- Файл README.md содержит описание проекта.
Похожие сообщения
- Цены на жилье — данные отчета
- Цены на жилье — Часть I [Вы здесь 😄]
- Цены на жилье — Часть II
- Цены на жилье — Часть III
- Цены на жилье — Часть IV