У меня есть DataFrame с миллионом строк и множеством значений NaN. Некоторые примеры:
index Company Area
0 Google Technology
1 Coca Cola Drinks
2 NaN Drinks
3 Apple Technology
4 NaN Technology
5 Gatorade Drinks
6 Dell Technology
7 Apple Technology
8 Coca Cola Drinks
9 NaN Drinks
10 Google Technology
Моя идея состоит в том, чтобы заполнить значения NaN компаний одним из двух наиболее распространенных значений для его области.
Из примера: если наиболее частыми компаниями в области технологий являются Apple и Google, я хотел бы заполнить значения NaN "df['Area'] == 'Technology'" одним из этих значений (случайным образом)
Я уже создал Group By DataFrame с наиболее распространенными значениями, это примерно так:
Area Company
Technology Google
Technology Apple
Drinks Coca Cola
Drinks Pepsi
Результат должен быть примерно таким:
index Company Area
0 Google Technology
1 Coca Cola Drinks
2 Pepsi Drinks
3 Apple Technology
4 Google Technology
5 Gatorade Drinks
6 Dell Technology
7 Apple Technology
8 Coca Cola Drinks
9 Pepsi Drinks
10 Google Technology
Я надеюсь, что вы можете мне помочь.
Спасибо!!!