Заполните значения nan случайным значением из другой панды DataFrame

У меня есть DataFrame с миллионом строк и множеством значений NaN. Некоторые примеры:

index     Company        Area
    0     Google         Technology
    1     Coca Cola      Drinks
    2     NaN            Drinks
    3     Apple          Technology
    4     NaN            Technology
    5     Gatorade       Drinks
    6     Dell           Technology
    7     Apple          Technology
    8     Coca Cola      Drinks
    9     NaN            Drinks
    10    Google         Technology

Моя идея состоит в том, чтобы заполнить значения NaN компаний одним из двух наиболее распространенных значений для его области.

Из примера: если наиболее частыми компаниями в области технологий являются Apple и Google, я хотел бы заполнить значения NaN "df['Area'] == 'Technology'" одним из этих значений (случайным образом)

Я уже создал Group By DataFrame с наиболее распространенными значениями, это примерно так:

Area          Company
Technology    Google
Technology    Apple
Drinks        Coca Cola
Drinks        Pepsi

Результат должен быть примерно таким:

index     Company        Area
    0     Google         Technology
    1     Coca Cola      Drinks
    2     Pepsi          Drinks
    3     Apple          Technology
    4     Google         Technology
    5     Gatorade       Drinks
    6     Dell           Technology
    7     Apple          Technology
    8     Coca Cola      Drinks
    9     Pepsi          Drinks
    10    Google         Technology

Я надеюсь, что вы можете мне помочь.

Спасибо!!!

Raul Dip 12.06.2018 источник

comment

Должны ли все значения NaN для данного ключа быть заполнены одним и тем же значением (выбранным случайным образом)? Ваш вопрос не так ясен. - cs95 12.06.2018

comment

@coldspeed нет, он должен быть случайным образом заполнен одним из двух лучших значений в своей категории. Например, некоторые значения NaN технологий должны быть заполнены Google, а некоторые — Apple. - Raul Dip 12.06.2018

Ответы (1)

arrow_upward
0
arrow_downward

Я придумал это решение, используя random.choice

import random

s=df1.groupby('Area').Company.apply(list).reindex(df.Area).apply(lambda x :random.choice(x) )
s.index=df.index

df.Company=df.Company.fillna(s)

df
Out[200]: 
    index   Company        Area
0       0    Google  Technology
1       1  CocaCola      Drinks
2       2  CocaCola      Drinks
3       3     Apple  Technology
4       4    Google  Technology
5       5  Gatorade      Drinks
6       6      Dell  Technology
7       7     Apple  Technology
8       8  CocaCola      Drinks
9       9     Pepsi      Drinks
10     10    Google  Technology

BENY 12.06.2018

comment

Это не работает. У меня ошибка: TypeError: объект типа 'float' не имеет len() - Raul Dip; 12.06.2018

Заполните значения nan случайным значением из другой панды DataFrame

Ответы (1)

Похожие вопросы