Публикации по теме 'pandas'


Специалисты по данным! Набор инструментов Intel OneAPI Analytics — это все, что вам нужно!
Как специалист по данным, вы знаете, как сложно работать с набором данных из более чем 5 миллионов записей с более чем 100 столбцами, верно? Существует более 100 пакетов Python и оптимизации, выполненные в популярных пакетах специалистов по данным, таких как Pandas, Numpy, scikit-learn и многих других. Даже несмотря на то, что все вклады с открытым исходным кодом и сопровождающие усердно работают над объединением PR и подготовкой последних версий каждого пакета и распространением их для..

Как Pandas справляется с большими наборами данных?
Стратегии управления большими объемами данных Pandas, пожалуй, самый популярный модуль, когда дело доходит до манипулирования данными с помощью Python. Он обладает огромной полезностью, содержит широкий спектр функций и может похвастаться значительной поддержкой сообщества. При этом у Pandas есть один вопиющий недостаток: его уровень производительности падает с большими наборами данных. Вычислительная потребность в обработке больших наборов данных с помощью Pandas может потребовать..

Как Python и Jupyter могут помочь системам пожарной безопасности
При проектировании систем пожарной безопасности пожарный инженер должен определить ожидаемую величину пожара на основе деталей проекта. В Австралии корреляция Альперта и уравнения Хескестада обычно используются для определения размера пожара, при котором срабатывает спринклерная головка. В этом блоге я написал сценарий Python для расчета времени и размера возгорания при активации спринклера. Уравнение Хескестада В этом разделе представлено уравнение, разработанное для определения..

Вопросы по теме 'pandas'

Преобразование группы pandas по объекту в мультииндексированный Dataframe
Если у меня есть следующий Dataframe >>> df = pd.DataFrame({'Name': ['Bob'] * 3 + ['Alice'] * 3, \ 'Destination': ['Athens', 'Rome'] * 3, 'Length': np.random.randint(1, 6, 6)}) >>> df Destination Length Name 0...
6713 просмотров

Групповая и агрегированная операция в Pandas Dataframe
У меня есть кадр данных Pandas: Date Type Section Status -------------------------------------------- 0 1-Apr Type1 A Present 1 1-Apr Type2 A Absent 2 1-Apr Type2 A...
249 просмотров
schedule 04.12.2023

Преобразование имени столбца (года) в переменные значения — Python, R
У меня есть CSV, который выглядит так: 1991 1992 1993 1991 1992 1993 VariableA VariableB VariableC VariableC VariableC VariableD VariableD VariableD lm mt 1 3...
108 просмотров
schedule 22.12.2023

Pandas read_csv для файла размером 6,5 ГБ потребляет более 170 ГБ ОЗУ
Я хотел поднять этот вопрос, просто потому что это безумно странно. Может быть, у Уэса есть какие-то идеи. Файл довольно обычный: 1100 строк x ~3M столбцов, данные разделены табуляцией и состоят исключительно из целых чисел 0, 1 и 2. Очевидно, что...
4068 просмотров
schedule 11.11.2023

объединить данные в пандах
У меня есть кадр данных pandas, подобный этому: index integer NaN x integer NaN y 0 49348 NaN 1 26005 NaN 2 5 NaN 3 NaN 26 4 26129 NaN 5 129...
123 просмотров
schedule 23.11.2023

Python – получение данных за последние 30 дней из панд кадра данных
У меня есть датафрейм, содержащий журналы ошибок за шесть месяцев, которые собираются каждый день. Я хочу получить записи за последние 30 дней с последней даты. Последняя дата не сегодня. Например: у меня есть данные за май, июнь, июль и до August...
10181 просмотров
schedule 21.12.2023

Регулярное выражение Python pandas dataframe для извлечения подстроки из объекта
Я создал фрейм данных в python, используя модуль pandas из файла csv. Pandas по умолчанию преобразует строку в тип объекта. Теперь из этой строки я хотел создать еще один столбец, который я пытаюсь создать с помощью регулярного выражения. Однако,...
2542 просмотров
schedule 26.10.2023

Как перенести общие столбцы между двумя файлами CSV
Я новичок в программировании и хочу написать эту программу, которая передает общие столбцы между file1.csv и file2.csv . Ввод: file1.csv выглядит так:...
48 просмотров
schedule 25.11.2023

Как записать данные в excel без перезаписи
Я использую некоторое условие для df , и все варианты, которые я пытаюсь записать в один файл excel (и на один лист). Я использую код из вопроса , мой ДФ for i, (id, date, url, id1, date1) in enumerate(zip(ids, dates, urls, ids1, dates1)):...
1576 просмотров
schedule 29.10.2023

ошибка памяти при загрузке CSV-файла?
У меня есть ноутбук с Ubuntu с 8 ГБ оперативной памяти, а также файл CSV объемом 2 ГБ, но когда я использую метод pandas read_csv для загрузки своих данных, оперативная память полностью заполняется, в то время как 7 ГБ оперативной памяти свободно....
4220 просмотров
schedule 24.10.2023

панды создают таблицу уникальных значений другого df
Я пытаюсь создать таблицу (чтобы распечатать ее в LaTex после), содержащую все разные значения данного DataFrame: dfDiff = pd.DataFrame(columns=df2.columns) for col in df2: dfDiff[col]=(df2[col].unique()) У меня есть это сообщение об...
2353 просмотров
schedule 06.11.2023

pandas.read_csv не может импортировать файл со знаком акцента в пути
Я разрабатываю приложение с Python и графическим интерфейсом QT. Мне нужно импортировать файл в DataFrame . Я использую QFileDialog.getOpenFileName , чтобы получить путь и имя файла, чтобы открыть его с помощью метода pandas.read_csv . Все...
1448 просмотров

панды создают несколько агрегаций без мультииндекса
У меня есть приведенный ниже код, который создает новые столбцы в моем фрейме данных для медианного проданного и стандартного проданного. У меня проблема в том, что мне не нужен многоиндексный вывод. Как я могу сгладить вывод, как в желаемом примере...
53 просмотров
schedule 11.12.2023

Заполните значения nan случайным значением из другой панды DataFrame
У меня есть DataFrame с миллионом строк и множеством значений NaN. Некоторые примеры: index Company Area 0 Google Technology 1 Coca Cola Drinks 2 NaN Drinks 3 Apple...
282 просмотров
schedule 07.11.2023

python pandas groupby sort rank/top n
У меня есть кадр данных, который сгруппирован по штатам и объединен с общим доходом, где сектор и имя игнорируются. Теперь я хотел бы разбить базовый набор данных, чтобы показать штат, сектор, имя и 2 лучших по доходам в определенном порядке (у меня...
1607 просмотров
schedule 29.09.2023

Мультиграф трендов в одной фигуре в питоне
Я хочу написать код на python (используя pandas и matplotlib), чтобы проиллюстрировать множество тенденций в одном окне. Мой исходный набор данных выглядит примерно так: НЕТ. Год Позиция Год Позиция Год Позиция 1 2000 1...
173 просмотров
schedule 18.11.2023

Панды Python: рассчитайте статистический диапазон для всех столбцов.
Используя python pandas, у меня есть фрейм данных с некоторыми столбцами типа int. мне нужно рассчитать статистический диапазон для всех столбцов. Я могу рассчитать минимум и максимум для каждого столбца, но не могу понять, как рассчитать диапазон...
1827 просмотров
schedule 14.12.2023

Логическая индексация в кадрах данных pandas
У меня есть такие данные: +-----------+---------+-------+ | Duration | Outcome | Event | +-----------+---------+-------+ | 421 | 0 | 1 | | 421 | 0 | 1 | | 261 | 0 | 1 | | 24 | 0 | 1...
53 просмотров
schedule 30.09.2023

день выходит за пределы диапазона ошибки месяца, подозревая ее причину в високосном году
мой код, похоже, не понимает, что есть високосный год. Код отлично работает с данными невисокосного года. Другая проблема, с которой я сталкиваюсь, заключается в том, что когда я распечатываю данные, для года устанавливается значение 1900 по...
665 просмотров
schedule 18.12.2023

Очистка адресных данных - замена «ул.» с «Улица» и «Св.» со «Святым» Как отличить?
У меня есть адресные данные, которые я пытаюсь стандартизировать. Сюда входят элементы очистки, такие как с Rd по Road и с Dr по Drive . Однако я совершенно не понимаю, как отличить Street от Saint. Они оба имеют аббревиатуру St ....
141 просмотров
schedule 19.10.2023