EDA в наборе данных Хабермана

Что такое набор данных Хабермана, на чем он основан?

Набор данных Хабермана содержит данные исследования, проведенного в больнице Биллингс Чикагского университета в период с 1958 по 1970 год для пациентов, перенесших операцию по поводу рака.

Для этого анализа в первую очередь мы должны иметь хорошее знание предметной области, чтобы понять особенности и связать из этого что-то убедительное.

Набор данных содержит 4 столбца: возраст, год, узлы, статус, из которых «статус» является зависимой переменной, а остальные независимы.

Наша цель — сказать, можно ли диагностировать рак, используя данные Хабермана.

Возраст →

Он представляет собой возраст пациентов, в котором они перенесли операцию (возраст от 30 до 83 лет).

Yухо →

Год, в котором пациенту сделали операцию (1958–1969).

Узлы →

Наличие раковых клеток в лимфатических узлах под рукой свидетельствует о повышенном риске распространения рака. В наших данных обнаружены подмышечные узлы (0–52). На данный момент …..»узлы ^» означает «риск рака ^».

Статус →

выжившие 5 лет и более обозначаются цифрой 1, а пациенты, прожившие менее 5 лет, обозначаются цифрой 2. ¶

Фрагмент кода, а затем его объяснение……

Я импортировал все необходимые библиотеки, которые в конечном итоге помогут мне получить окончательный результат.

Я использовал набор данных Хабермана, который легко доступен в Интернете.

мы будем читать этот файл csv, чтобы работать с набором данных (значения, собранные за все годы, чтобы сделать неясный вывод, чтобы предсказать дальнейшие результаты.

Я напечатал форму набора данных, которая возвращает мне количество строк и столбцов в наборе данных.

Здесь мне подтвердили, что набор данных, который я получил, был полностью импортирован.

Также я напечатал имена столбцов только для проверки и подтверждения.

Из кода могу сделать вывод, что из 306 записей 225 пациентов прожили более 5 лет, а остальные 81 прожили менее 5 лет.

Это несколько дало мне смутное представление о наборе данных.

Функцию описания можно использовать, если вам нужны значения сразу, без визуализации.

если мы посмотрим на столбец состояния в строке «среднее», мы увидим значение 1,26, которое говорит нам о том, что большинство значений в наборе данных ближе к 1, что означает «больше выживания».

Теперь настало время, когда мы будем отображать данные, поскольку человеческий разум отлично работает после визуализации ситуации, именно то, что мы пытаемся сделать сейчас.

Используя Matplotlib, я построил точечный график с «узлами» по оси X и «возрастом» по оси Y, этот график на очень простом языке означал бы — → возрастная группа 30–40 лет была найдена с узлами менее 20, что все еще менее плотно. , возрастные группы 40–60 лет, у всех которых были обнаружены узлы от 0 до 30, но все еще плотные.

Если мы не будем говорить о том, кто выжил, а кто нет, и примем во внимание, что большее количество лимфоузлов означает большую вероятность рака, из этого графика можно сделать вывод, что в возрастных группах 40–60 лет более вероятно развитие лимфоузлов 0–25, что делает их жертвами рака.

Как уже упоминалось, что «статус» является зависимой переменной, здесь мы манипулировали предыдущим графиком, раскрашивая результирующий признак, чтобы визуализировать его немного лучше.

Мы снова взяли «возраст» по оси Y и «Узлы» по оси X, но на этот раз у нас есть люди, которые «выжили» синим цветом, а «не смогли выжить» — оранжевым.

Новый вывод, который следует добавить: «Люди, принадлежащие к возрастной группе 30–40 лет, способны выжить, проблема заключается в людях возрастной группы 40–70 лет, где на данный момент мы можем сказать, что большее количество узлов приводит к смерти. Люди этой возрастной группы еще выжить, если нет. узлов находится в диапазоне от 0 до 5.

Мы выбрали «узлы» и «возраст» самостоятельно, но что, если бы третий признак, то есть «год», мог бы дать нам более точный сюжет или что, если бы «год» играл важную роль в выживаемости.

Для этого нам нужно использовать парные графики, которые строят графики «КОЛИЧЕСТВО ФУНКЦИЙ C 2» и позволяют сравнить, какой из них даст точный результат.

Итак, мы построили парные графики, но помните ли вы, что «статус» — это зависимая переменная. Таким образом, не будет иметь значения угадывание какой-либо закономерности или предсказание результата.

Здесь мы делаем вывод, что нам нужно использовать только независимые признаки для парного графика.

Теперь мы строим «парные графики», используя три зависимые переменные.

Я назову их 1,2,3, затем 4,5,6, затем 7,8,9 (по строкам).

Итак, как мы видим, графики 1, 5, 9 - это просто простые PDF-файлы, которые показывают нам плотность данных. Сейчас мы можем сказать, что чем больше перекрытие PDF-файлов результирующей переменной на одном и том же графике, тем сложнее его принять. вывод. Посмотрев на 9-й график (pdf) узлов, я могу счесть его лучшим (среди приведенных) для любого дальнейшего прогноза или заключения. Также становится ясно, что «возраст» и «год работы» не играют такой большой роли в выживании или невыживании, как «нет. узлов». Конечно, они могли выступать в роли адвт. или дисадвт.

Переходя к графикам 2, 3, 4, 6, 7, 8, если мы заметим, что графики 2–4, 3–7, 6–8 повернуты всего на 90 градусов.

Итак, мы будем рассматривать только 2, 3 и 6 нет. сюжет для любого дальнейшего вывода.

В таких графиках мы ищем графики, в которых результирующая переменная легко отделима.

Сюжет 2 имеет смешанные моменты.

Точно так же трудно разделить синий и оранжевый на графике 6.

Опять же, нам трудно разделить то и другое в сюжете 3.

Я выберу график 3 для любых дальнейших выводов, используя технику исключения и сначала удаляя худшие графики.

Если мы попытаемся получить все точки вдоль линии 0, мы увидим наложение «меньшего выживания» на «большего выживания». Один из выводов, сделанных на этом графике, заключается в том, что шансов на «меньшее выживание» больше. Хотя здесь это не кристально ясно, и для этого нам нужно получить pdf и график cdf.

Давайте построим график PDF для всех трех функций и внимательно посмотрим.

Почти одинаковые статусы выживания и смерти в возрастном PDF-сюжете, поэтому здесь сложно сделать какой-либо вывод.

Сюжет PDF «Год операции» почти аналогичен выживанию и смерти, поэтому тут сложно что-либо заключить.

Все еще сложно, так как можно было увидеть перекрытие, но все еще управляемо.

ЧТО МОЖНО ЗАКЛЮЧИТЬ — →

Если узлы находятся в диапазоне от 0 до 4, шансы на выживание ВЫСОКИЕ.

Если узлов больше 4, шансы на выживание НИЗКИЕ.

Если мы можем видеть на графике выше, все пациенты с меньшим числом. узлов не сохранилось. Но мы говорим, что шансов на выживание больше.

Мы не можем рассматривать все с точки зрения случайности, и поэтому нам нужны CDF, которые являются интегралами Pdf.

В основном используется для расчета процента пациентов, которые выжили или не выжили.

На приведенном ниже графике показан CDF графика «Высокий шанс на выживание», основанный на узлах.

Этот график ясно показывает, что шансы на выживание лучше, если нет. узлов меньше.

Около 85% (0,85 X 100) имеют высокие шансы на выживание, если количество узлов меньше 7.

Точно так же мы строим CDF «меньшего выживания» и снова делаем вывод, что 90% людей имеют меньше шансов на выживание, если количество узлов меньше 20.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

медиана

Медиана - это центральное значение данных, а квантили - это значение конкретной функции в n-м процентиле n = 25,50,75, а n-й процентиль аналогичен квантилям, но n может быть любым числом от 1 до 100.

Медиану можно рассматривать как «среднее». ценить.

Средний узел при долгом выживании равен 0, а при коротком выживании — 4.

квантили

Может быть любым числом от 1 до 100 процентилей, но обычно это 0,25,50,75,100.

По сути, у 25 процентов людей количество узлов меньше 0, а у 75 процентов людей количество узлов меньше 3 при длительном выживании.

Кроме того, у 25 процентов людей количество узлов меньше 0, а у 75 процентов людей число узлов меньше 11 в коротком выживании.

Точно так же мы можем вычислить любой процентиль от 1 до 100.

Вы можете заметить, что для длительного выживания среднее значение составляет 2,79, а включая выброс, это 3, что почти одинаково, но среднее значение для короткого выживания составляет 7,4, что сравнительно намного выше, чем для длительного выживания. Таким образом, вероятность короткого выживания больше в наборе данных.

Коробчатые диаграммы почти сообщают вам все, что связано с процентилем. Ширина блока ни о чем не говорит, высота блока говорит нам о разбросе данных,

верхняя сторона поля говорит нам о 75-м процентиле, а нижняя сторона поля говорит нам о 25-м процентиле.

Средняя линия, конечно же, говорит о 50-м процентиле.

Усы сверху и снизу дают нам минимальное и максимальное значение.

Выводы →

25-й и 50-й процентили продолжительной выживаемости одинаковы, т. е. равны 0.

если узлы между 0–7 имеют шансы на ошибку, так как короткий график выживания также лежит в этом. Это 50% ошибка для короткого статуса выживания.

Сюжеты для скрипки представляют собой смесь PDF и Box plot.

У нас есть блочная диаграмма посередине, а PDF-файлы повернуты на 90 градусов по обе стороны от блочной диаграммы.

Заключение - ->

Да, вы можете диагностировать рак, используя набор данных Хабермана, применяя различные методы анализа данных и используя различные библиотеки Python.

EDA в наборе данных Хабермана

Что такое набор данных Хабермана, на чем он основан?

Возраст →

Yухо →

Узлы →

Статус →

Я импортировал все необходимые библиотеки, которые в конечном итоге помогут мне получить окончательный результат.

Я использовал набор данных Хабермана, который легко доступен в Интернете.

Я напечатал форму набора данных, которая возвращает мне количество строк и столбцов в наборе данных.

Здесь мне подтвердили, что набор данных, который я получил, был полностью импортирован.

Также я напечатал имена столбцов только для проверки и подтверждения.

Из кода могу сделать вывод, что из 306 записей 225 пациентов прожили более 5 лет, а остальные 81 прожили менее 5 лет.

Это несколько дало мне смутное представление о наборе данных.

Функцию описания можно использовать, если вам нужны значения сразу, без визуализации.

Мы снова взяли «возраст» по оси Y и «Узлы» по оси X, но на этот раз у нас есть люди, которые «выжили» синим цветом, а «не смогли выжить» — оранжевым.

Для этого нам нужно использовать парные графики, которые строят графики «КОЛИЧЕСТВО ФУНКЦИЙ C 2» и позволяют сравнить, какой из них даст точный результат.

Здесь мы делаем вывод, что нам нужно использовать только независимые признаки для парного графика.

Теперь мы строим «парные графики», используя три зависимые переменные.

Я назову их 1,2,3, затем 4,5,6, затем 7,8,9 (по строкам).

Переходя к графикам 2, 3, 4, 6, 7, 8, если мы заметим, что графики 2–4, 3–7, 6–8 повернуты всего на 90 градусов.

Итак, мы будем рассматривать только 2, 3 и 6 нет. сюжет для любого дальнейшего вывода.

В таких графиках мы ищем графики, в которых результирующая переменная легко отделима.

Сюжет 2 имеет смешанные моменты.

Точно так же трудно разделить синий и оранжевый на графике 6.

Опять же, нам трудно разделить то и другое в сюжете 3.

Я выберу график 3 для любых дальнейших выводов, используя технику исключения и сначала удаляя худшие графики.

Давайте построим график PDF для всех трех функций и внимательно посмотрим.

Почти одинаковые статусы выживания и смерти в возрастном PDF-сюжете, поэтому здесь сложно сделать какой-либо вывод.

Сюжет PDF «Год операции» почти аналогичен выживанию и смерти, поэтому тут сложно что-либо заключить.

Все еще сложно, так как можно было увидеть перекрытие, но все еще управляемо.

ЧТО МОЖНО ЗАКЛЮЧИТЬ — →

Если узлы находятся в диапазоне от 0 до 4, шансы на выживание ВЫСОКИЕ.

Если узлов больше 4, шансы на выживание НИЗКИЕ.

Если мы можем видеть на графике выше, все пациенты с меньшим числом. узлов не сохранилось. Но мы говорим, что шансов на выживание больше.

Мы не можем рассматривать все с точки зрения случайности, и поэтому нам нужны CDF, которые являются интегралами Pdf.

В основном используется для расчета процента пациентов, которые выжили или не выжили.

На приведенном ниже графике показан CDF графика «Высокий шанс на выживание», основанный на узлах.

Этот график ясно показывает, что шансы на выживание лучше, если нет. узлов меньше.

Около 85% (0,85 X 100) имеют высокие шансы на выживание, если количество узлов меньше 7.

Точно так же мы строим CDF «меньшего выживания» и снова делаем вывод, что 90% людей имеют меньше шансов на выживание, если количество узлов меньше 20.

медиана

Медиану можно рассматривать как «среднее». ценить.

Средний узел при долгом выживании равен 0, а при коротком выживании — 4.

квантили

Может быть любым числом от 1 до 100 процентилей, но обычно это 0,25,50,75,100.

По сути, у 25 процентов людей количество узлов меньше 0, а у 75 процентов людей количество узлов меньше 3 при длительном выживании.

Кроме того, у 25 процентов людей количество узлов меньше 0, а у 75 процентов людей число узлов меньше 11 в коротком выживании.

Точно так же мы можем вычислить любой процентиль от 1 до 100.

Коробчатые диаграммы почти сообщают вам все, что связано с процентилем. Ширина блока ни о чем не говорит, высота блока говорит нам о разбросе данных,

верхняя сторона поля говорит нам о 75-м процентиле, а нижняя сторона поля говорит нам о 25-м процентиле.

Средняя линия, конечно же, говорит о 50-м процентиле.

Усы сверху и снизу дают нам минимальное и максимальное значение.

Выводы →

25-й и 50-й процентили продолжительной выживаемости одинаковы, т. е. равны 0.

если узлы между 0–7 имеют шансы на ошибку, так как короткий график выживания также лежит в этом. Это 50% ошибка для короткого статуса выживания.

Сюжеты для скрипки представляют собой смесь PDF и Box plot.

У нас есть блочная диаграмма посередине, а PDF-файлы повернуты на 90 градусов по обе стороны от блочной диаграммы.

Похожие вопросы