Прогнозирование возраста морского ушка с использованием регрессии K-ближайших соседей (KNN)

Введение:
Определение возраста морского ушка, одного из видов морских улиток, традиционно было утомительным и трудоемким процессом. Однако в этом посте мы рассмотрим, как можно использовать машинное обучение для прогнозирования возраста морских ушек на основе их физических измерений. Мы специально сосредоточимся на использовании алгоритма регрессии K-ближайших соседей (KNN) для выполнения этой задачи. Используя более простые измерения, мы можем сэкономить время и силы, точно оценивая возраст морского ушка.

Понимание данных.
Набор данных, используемый для этого проекта, получен из репозитория машинного обучения UCI. Он включает в себя различные атрибуты, такие как физические размеры морских ушек и количество колец на их панцирях, что является показателем возраста. Мы будем использовать эти функции для обучения нашей регрессионной модели KNN.

Пошаговый подход:

Шаг 1. Предварительная обработка данных.
Для начала нам нужно подготовить набор данных для обучения модели. Мы импортируем необходимые библиотеки и загружаем набор данных в pandas DataFrame. Кроме того, мы присваиваем значимые имена столбцам для повышения удобочитаемости.

```python
импортировать pandas как pd
импортировать numpy как np
из sklearn.model_selection import train_test_split
из sklearn.preprocessing import StandardScaler
из sklearn.neighbors import KNeighborsRegressor
импортировать из sklearn.metrics mean_absolute_error, mean_squared_error, r2_score

# Загрузите набор данных
df = pd.read_csv("/Users/barovierallybose/Downloads/abalone/abalone.data")

# Создайте список имен столбцов, которые вы хотите присвоить
new_column_names = ['Пол', 'Длина', 'Диаметр', 'Высота', 'Вес всего', 'Вес очищенного', 'Вес внутренностей', ' Вес снаряда», «Кольца»]

# Назначить новые имена столбцов существующему фрейму данных
df.columns = new_column_names
df[‘Age’] = df[‘Rings’] + 1.5
```

Шаг 2. Подготовка данных.
На этом шаге мы удаляем столбец "Пол", так как он содержит нечисловые значения, которые не подходят для нашей модели регрессии.

```python
df = df.drop('Sex', axis=1)
```

Шаг 3. Разделение данных.
Чтобы оценить производительность модели, мы разделили данные на обучающие и тестовые наборы с помощью функции train_test_split из модуля sklearn.model_selection. Это разделение гарантирует, что наша модель оценивается на невидимых данных, что позволяет нам точно оценить ее реальную производительность.

```python
# Разделите функции (X) и цель (y)
X = df.drop(columns=['Возраст']) # Функции без столбца "Возраст"
> y = df['Age'] # Целевой столбец ("Возраст")

# Разделить данные на наборы для обучения и тестирования
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

Шаг 4. Инициализация и обучение модели.
Здесь мы инициализируем регрессор KNN, указав количество соседей (k) равным 29 и выбрав схему взвешивания «расстояние». Эти настройки повлияют на возможности предсказания модели. Затем мы приступаем к обучению модели, используя обучающие данные.

```python
# Инициализировать регрессор K-NN
regressor = KNeighborsRegressor(n_neighbors=29, weights='distance')

# Обучить регрессор
regressor.fit(X_train, y_train)
```

Шаг 5: Делаем прогнозы:
После обучения мы делаем прогнозы на тестовых данных, используя функцию «предсказать» обученного регрессора. Эти прогнозы представляют предполагаемый возраст морского ушка.

```python
# Делаем прогнозы
y_pred =

regressor.predict(X_test)
```

Шаг 6. Показатели оценки.
Чтобы оценить эффективность нашей модели, мы рассчитываем различные показатели оценки: среднюю абсолютную ошибку (MAE), среднеквадратичную ошибку (MSE), среднеквадратичную ошибку (RMSE) и R-квадрат. Счет. Эти показатели количественно определяют точность и достоверность наших прогнозов по сравнению с фактическим возрастом.

```python
# Расчет показателей оценки
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared= Ложь)
r2 = r2_score(y_test, y_pred)

# Вывести показатели оценки
print("Средняя абсолютная ошибка:", mae)
print("Среднеквадратичная ошибка:", mse)
print("Среднеквадратичная ошибка:", rmse )
print("Оценка R-квадрата:", r2)
```

Результаты и заключение:
После оценки производительности модели мы получили следующие результаты:
- Средняя абсолютная ошибка: 0,0099
- Среднеквадратическая ошибка: 0,0177
- Среднеквадратичная ошибка: 0,133
- Оценка R-квадрата: 0,9984

Эти результаты показывают, что наша регрессионная модель KNN демонстрирует исключительную точность в прогнозировании возраста морского ушка. Низкие значения ошибки и высокий показатель R-квадрата предполагают, что прогнозы модели точно совпадают с фактическим возрастом.

Используя методы машинного обучения и алгоритм регрессии KNN, мы упростили процесс оценки возраста морских ушек. Этот подход предлагает более быструю и эффективную альтернативу традиционному методу ручного подсчета колец на их раковинах.

В заключение, применение регрессии KNN для прогнозирования возраста морского ушка на основе физических измерений открывает возможности для оптимизации исследований, усилий по сохранению и экологических исследований, связанных с этими удивительными морскими существами.

(Примечание: код и набор данных, используемые в этом сообщении в блоге, можно найти по предоставленной ссылке: https://archive.ics.uci.edu/dataset/1/abalone)

Помните, что необходимо приложить все усилия для проверки и точной настройки модели с использованием дополнительных данных и экспертных знаний в предметной области, чтобы обеспечить ее надежность, прежде чем развертывать ее в реальных сценариях.

Удачного программирования и изучения чудес машинного обучения!

Прогнозирование возраста морского ушка с использованием регрессии K-ближайших соседей (KNN)

Похожие вопросы