Регулярное выражение Python pandas dataframe для извлечения подстроки из объекта

Я создал фрейм данных в python, используя модуль pandas из файла csv. Pandas по умолчанию преобразует строку в тип объекта. Теперь из этой строки я хотел создать еще один столбец, который я пытаюсь создать с помощью регулярного выражения. Однако, поскольку столбец является объектом, я получаю сообщение об ошибке

data = pd.read_csv(r'Desktop\train.csv')
desig = re.search(r'(\w+), (\w+). (\w+)',data['Name']).group(1)

TypeError: ожидаемая строка или буфер

Как я могу извлечь часть из объекта?

Спасибо.

python pandas regex

prasadav 19.01.2016 источник

comment

Вы также должны показать нам несколько строк из CSV-файла, чтобы мы могли выяснить, что вы пытаетесь сопоставить. - Tim Biegeleisen 19.01.2016

Ответы (1)

arrow_upward
0
arrow_downward

Вы хотите использовать векторизованные операции, содержащиеся в методах str фрейма данных:

data['desig'] = data['Name'].str.extract(r'(\w+), (\w+). (\w+)')

Это фактически вернет фрейм данных с тремя столбцами, соответствующими трем группам.

maxymoo 19.01.2016

Регулярное выражение Python pandas dataframe для извлечения подстроки из объекта

Ответы (1)

Похожие вопросы