Цель

Это первая глава нового проекта по науке о данных, над которым мы будем работать в течение следующих нескольких дней, недель, месяцев или навсегда. Намерение здесь состоит в том, чтобы построить этот проект как часть моего портфолио, изучая новые вещи каждый день, поэтому изменения могут быть внесены в базу кода после того, как я закончу эту документацию, но я постараюсь как можно больше добавлять новые сообщения по мере этих обновлений. случаться.

Проект

Представьте, что вы специалист по данным, работающий в компании, которая покупает дома, чтобы продать их в будущем с максимальной прибылью. Если вы сможете делать хорошие прогнозы, вас, вероятно, повысят в ближайшие несколько дней или вы даже сможете начать свой собственный бизнес, поэтому в ходе этого проекта мы собираемся ответить на несколько вопросов, таких как:

  • Какой дом мне следует купить и как долго я должен ждать, чтобы продать только что купленный дом?
  • Учитывая период времени, в течение которого я могу подождать с продажей дома, какой дом мне следует купить? Что произойдет, если я добавлю ограничение бюджета?

Конечно, мы, вероятно, обнаружим и другие вопросы по пути, но это основные вопросы, которые мы собираемся решить.

[Изменить] Примечание. К сожалению, из-за ограничений набора данных мы не смогли построить модель прогноза, чтобы ответить на эти вопросы в Части IV этой серии. Таким образом, мы фактически отвечаем на простой вопрос, чтобы помочь нашей компании: учитывая набор характеристик дома, за сколько я должен купить или продать его?

Набор данных

Для этого конкретного проекта мы будем использовать набор данных Продажи домов в округе Кинг, доступный на Kaggle. Этот набор данных содержит несколько столбцов, относящихся к характеристикам дома, таким как цена, количество спален, ванных комнат и т. д.

Чтобы объяснить каждую переменную, представленную в наборе данных, я буду ссылаться на этот пост Мурильо. Я просто скопирую и вставлю приведенные ниже описания на случай, если его страница будет удалена по какой-либо причине в будущем:

id            - Unique ID for each home sold
date          - Date of the home sale
price         - Price of each home sold
bedrooms      - Number of bedrooms
bathrooms     - Number of bathrooms, where .5 accounts for a room with a toilet but no shower
sqft_living   - Square footage of the apartments interior living space
sqft_lot      - Square footage of the land space
floors        - Number of floors
waterfront    - A dummy variable for whether the apartment was overlooking the waterfront or not
view          - An index from 0 to 4 of how good the view of the property was
condition     - An index from 1 to 5 on the condition of the apartment,
grade         - An index from 1 to 13, where 1-3 falls short of building construction and design, 7 has an average level of construction and design, and 11-13 have a high quality level of construction and design.
sqft_above    - The square footage of the interior housing space that is above ground level
sqft_basement - The square footage of the interior housing space that is below ground level
yr_built      - The year the house was initially built
yr_renovated  - The year of the house’s last renovation
zipcode       - What zipcode area the house is in
lat           - Lattitude
long          - Longitude
sqft_living15 - The square footage of interior housing living space for the nearest 15 neighbors
sqft_lot15    - The square footage of the land lots of the nearest 15 neighbors

Окружающая среда

Для разработки этого проекта я буду использовать виртуальную среду Python, созданную с помощью некоторых советов, данных Гатри в этом посте. Проект будет доступен на моем GitHub.

Изначально у нас будет следующее дерево проекта:

project/
├── data/
│   ├── raw/
│   │   ├── kc_house_data.csv
├── requirements.txt
└── README.md
  • В каталоге data/raw мы будем сохранять исходный необработанный набор данных.
  • Файл requirements.txt содержит некоторые зависимости Python, которые будут использоваться.
  • Файл README.md содержит описание проекта.

Похожие сообщения