как узнать номер столбца pandas
Pandas DataFrame Индекс и столбцы атрибуты
Атрибуты индекса PandaS DataFrame и атрибуты столбцов позволяют нам получать значения меток строк и столбцов. Мы можем передать целочисленное значение, ломтики или логию
Атрибуты индекса PandaS DataFrame и атрибуты столбцов позволяют нам получать значения меток строк и столбцов.
Мы можем передавать целочисленное значение, ломтики или логические аргументы, чтобы получить информацию об этикетке.
Индекс Pandas DataFrame
Давайте посмотрим на несколько примеров получения этикеток разных строк в объекте DataFrame. Прежде чем мы посмотрим на использование атрибута индекса, мы создадим образец объекта DataFrame.
1. Получение имени метки одной строки
2. Получение этикеток нескольких рядов
3. Нарезка с индексом DataFrame
4. Boolean с индексом DataFrame
Мы не можем установить значение метки строк, используя атрибут индекса DataFrame. Если мы попытаем это сделать, это будет поднять ImporeError («Индекс не поддерживает смежные операции») Отказ
Столбцы Python DataFrame
Атрибут столбцов DataFrame предоставляет значения этикетки для столбцов. Это очень похоже на атрибут индекса. Мы не можем установить значение метки столбцов, используя этот атрибут. Давайте посмотрим на некоторые примеры использования атрибута столбцов DataFrame. Мы повторно используем более раннее определенное объект DataFrame для этих примеров.
1. Получение метки одной колонны
2. Получение этикеток нескольких столбцов
3. Нарезка с столбцами DataFrame
4. Boolean с столбцами DataFrame
Заключение
Атрибуты столбцов PandaFrame PandaS HataFrame и столбцов полезны, когда мы хотим обрабатывать только определенные строки или столбцы. Также полезно получить информацию об этикетке и распечатать ее для будущих целей отладки.
Изучаем pandas. Урок 3. Доступ к данным в структурах pandas
Два подхода получения доступа к данным в pandas
Такой подход позволяет использовать:
В зависимости от типа используемой структуры, будет меняться форма .loc :
Использование различных способов доступа к данным
Создадим структуру Series.
Доступ к данным структуры Series
Доступ с использованием меток
При использовании меток для доступа к данным можно применять один из следующих подходов:
Обращение по отдельной метке.
Получение элементов с меткой ‘a’ :
Обращение по массиву меток.
Получение элементов с метками ‘a’, ‘c’ и ‘e’:
Обращение по слайсу меток.
Получение элементов структуры с метками от ‘a’ до ‘e’ :
Доступ с использованием целочисленных индексов
При работе с целочисленными индексами, индекс можно ставить сразу после имени переменной в квадратных скобках (пример: s[1] ), или можно воспользоваться .iloc (пример: s.iloc[1] ).
Обращение по отдельному индексу.
Получение элемента с индексом 1:
Обращение с использованием списка индексов.
Получение элементов с индексами 1, 2 и 3.
Обращение по слайсу индексов.
Получение первых трех элементов структуры:
Обращение через callable функцию
При таком подходе в квадратных скобках указывается не индекс или метка, а функция (как правило, это лямбда функция), которая используется для выборки элементов структуры.
Получение всех элементов, значение которых больше либо равно 30:
Обращение через логическое выражение
Данный подход похож на использование callable функции: в квадратных скобках записывается логическое выражение, согласно которому будет произведен отбор.
Получение всех элементов, значение которых больше 30:
Доступ к данным структуры DataFrame
Доступ с использованием меток
Рассмотрим различные варианты использования меток, которые могут являться как именами столбцов таблицы, так и именами строк.
Обращение к конкретному столбцу.
Получение всех элементов столбца ‘count’ :
Обращение с использованием массива столбцов.
Получение элементов столбцов ‘count’ и ‘price’ :
Обращение по слайсу меток.
Обращение через callable функцию
Получение всех элементов, у которых значение в столбце ‘count’ больше 15:
Обращение через логическое выражение
При формировании логического выражения необходимо указывать имена столбцов, также как и при работе с callable функциями, по которым будет производиться выборка.
Получить все элементы, у которых ‘price’ больше либо равен 2.
Использование атрибутов для доступа к данным
Для доступа к данным можно использовать атрибуты структур, в качестве которых выступают метки.
Воспользуемся уже знакомой нам структурой.
Для доступа к элементу через атрибут необходимо указать его через точку после имени переменной.
Получение случайного набора из структур pandas
Для того, чтобы выбрать случайным образом элемент из Series воспользуйтесь следующим синтаксисом.
Очень интересной особенностью является то, что мы можем передать вектор весов, длина которого должна быть равна количеству элементов в структуре. Сумма весов должна быть равна единице, вес, в данном случае, это вероятность появления элемента в выборке.
В нашей тестовой структуре пять элементов, сформируем вектор весов для нее и сделаем выборку из трех элементов.
При работе с DataFrame можно указать ось.
Добавление элементов в структуры
Увеличение размера структуры – т.е. добавление новых, дополнительных, элементов – это довольно распространенная задача. В pandas она решается очень просто. И самый быстрый способ понять, как это делать – попробовать реализовать эту задачу на практике.
Индексация с использованием логических выражений
На практике очень часто приходится получать определенную подвыборку из существующего набора данных. Например, получить все товары, скидка на которые больше пяти процентов, или выбрать из базы информацию о сотрудниках мужского пола старше 30 лет. Это очень похоже на процесс фильтрации при работе с таблицами или получение выборки из базы данных. Похожий функционал реализован в pandas и мы уже касались этого вопроса, когда рассматривали различные подходы к индексации.
Условное выражение записывается вместо индекса в квадратных скобках при обращении к элементам структуры.
При работе с Series возможны следующие варианты использования.
При работе с DataFrame необходимо указывать столбец по которому будет производиться фильтрация (выборка).
Использование isin для работы с данными в pandas
Моя шпаргалка по pandas
Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.
Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.
1. Подготовка к работе
Если вы хотите самостоятельно опробовать то, о чём тут пойдёт речь, загрузите набор данных Anime Recommendations Database с Kaggle. Распакуйте его и поместите в ту же папку, где находится ваш Jupyter Notebook (далее — блокнот).
Теперь выполните следующие команды.
После этого у вас должна появиться возможность воспроизвести то, что я покажу в следующих разделах этого материала.
2. Импорт данных
▍Загрузка CSV-данных
Здесь я хочу рассказать о преобразовании CSV-данных непосредственно в датафреймы (в объекты Dataframe). Иногда при загрузке данных формата CSV нужно указывать их кодировку (например, это может выглядеть как encoding=’ISO-8859–1′ ). Это — первое, что стоит попробовать сделать в том случае, если оказывается, что после загрузки данных датафрейм содержит нечитаемые символы.
▍Создание датафрейма из данных, введённых вручную
Это может пригодиться тогда, когда нужно вручную ввести в программу простые данные. Например — если нужно оценить изменения, претерпеваемые данными, проходящими через конвейер обработки данных.
Данные, введённые вручную
▍Копирование датафрейма
Копирование датафреймов может пригодиться в ситуациях, когда требуется внести в данные изменения, но при этом надо и сохранить оригинал. Если датафреймы нужно копировать, то рекомендуется делать это сразу после их загрузки.
3. Экспорт данных
▍Экспорт в формат CSV
При экспорте данных они сохраняются в той же папке, где находится блокнот. Ниже показан пример сохранения первых 10 строк датафрейма, но то, что именно сохранять, зависит от конкретной задачи.
4. Просмотр и исследование данных
▍Получение n записей из начала или конца датафрейма
Сначала поговорим о выводе первых n элементов датафрейма. Я часто вывожу некоторое количество элементов из начала датафрейма где-нибудь в блокноте. Это позволяет мне удобно обращаться к этим данным в том случае, если я забуду о том, что именно находится в датафрейме. Похожую роль играет и вывод нескольких последних элементов.
Данные из начала датафрейма
Данные из конца датафрейма
▍Подсчёт количества строк в датафрейме
▍Подсчёт количества уникальных значений в столбце
Для подсчёта количества уникальных значений в столбце можно воспользоваться такой конструкцией:
▍Получение сведений о датафрейме
В сведения о датафрейме входит общая информация о нём вроде заголовка, количества значений, типов данных столбцов.
Сведения о датафрейме
▍Вывод статистических сведений о датафрейме
Знание статистических сведений о датафрейме весьма полезно в ситуациях, когда он содержит множество числовых значений. Например, знание среднего, минимального и максимального значений столбца rating даёт нам некоторое понимание того, как, в целом, выглядит датафрейм. Вот соответствующая команда:
Статистические сведения о датафрейме
▍Подсчёт количества значений
Для того чтобы подсчитать количество значений в конкретном столбце, можно воспользоваться следующей конструкцией:
Подсчёт количества элементов в столбце
5. Извлечение информации из датафреймов
▍Создание списка или объекта Series на основе значений столбца
Это может пригодиться в тех случаях, когда требуется извлекать значения столбцов в переменные x и y для обучения модели. Здесь применимы следующие команды:
Результаты работы команды anime[‘genre’].tolist()
Результаты работы команды anime[‘genre’]
▍Получение списка значений из индекса
Результаты выполнения команды
▍Получение списка значений столбцов
Вот команда, которая позволяет получить список значений столбцов:
Результаты выполнения команды
6. Добавление данных в датафрейм и удаление их из него
▍Присоединение к датафрейму нового столбца с заданным значением
Иногда мне приходится добавлять в датафреймы новые столбцы. Например — в случаях, когда у меня есть тестовый и обучающий наборы в двух разных датафреймах, и мне, прежде чем их скомбинировать, нужно пометить их так, чтобы потом их можно было бы различить. Для этого используется такая конструкция:
▍Создание нового датафрейма из подмножества столбцов
Это может пригодиться в том случае, если требуется сохранить в новом датафрейме несколько столбцов огромного датафрейма, но при этом не хочется выписывать имена столбцов, которые нужно удалить.
Результат выполнения команды
▍Удаление заданных столбцов
Этот приём может оказаться полезным в том случае, если из датафрейма нужно удалить лишь несколько столбцов. Если удалять нужно много столбцов, то эта задача может оказаться довольно-таки утомительной, поэтому тут я предпочитаю пользоваться возможностью, описанной в предыдущем разделе.
Результаты выполнения команды
▍Добавление в датафрейм строки с суммой значений из других строк
Результат выполнения команды
Команда вида df.sum(axis=1) позволяет суммировать значения в столбцах.
7. Комбинирование датафреймов
▍Конкатенация двух датафреймов
Эта методика применима в ситуациях, когда имеются два датафрейма с одинаковыми столбцами, которые нужно скомбинировать.
В данном примере мы сначала разделяем датафрейм на две части, а потом снова объединяем эти части:
Датафрейм, объединяющий df1 и df2
▍Слияние датафреймов
Результаты выполнения команды
8. Фильтрация
▍Получение строк с нужными индексными значениями
Индексными значениями датафрейма anime_modified являются названия аниме. Обратите внимание на то, как мы используем эти названия для выбора конкретных столбцов.
Результаты выполнения команды
▍Получение строк по числовым индексам
Следующая конструкция позволяет выбрать три первых строки датафрейма:
Результаты выполнения команды
▍Получение строк по заданным значениям столбцов
Для получения строк датафрейма в ситуации, когда имеется список значений столбцов, можно воспользоваться следующей командой:
Результаты выполнения команды
Если нас интересует единственное значение — можно воспользоваться такой конструкцией:
▍Получение среза датафрейма
Эта техника напоминает получение среза списка. А именно, речь идёт о получении фрагмента датафрейма, содержащего строки, соответствующие заданной конфигурации индексов.
Результаты выполнения команды
▍Фильтрация по значению
Из датафреймов можно выбирать строки, соответствующие заданному условию. Обратите внимание на то, что при использовании этого метода сохраняются существующие индексные значения.
Результаты выполнения команды
9. Сортировка
Для сортировки датафреймов по значениям столбцов можно воспользоваться функцией df.sort_values :
Результаты выполнения команды
10. Агрегирование
▍Функция df.groupby и подсчёт количества записей
Вот как подсчитать количество записей с различными значениями в столбцах:
Результаты выполнения команды
▍Функция df.groupby и агрегирование столбцов различными способами
▍Создание сводной таблицы
Для того чтобы извлечь из датафрейма некие данные, нет ничего лучше, чем сводная таблица. Обратите внимание на то, что здесь я серьёзно отфильтровал датафрейм, что ускорило создание сводной таблицы.
Результаты выполнения команды
11. Очистка данных
▍Запись в ячейки, содержащие значение NaN, какого-то другого значения
Таблица, содержащая значения NaN
Результаты замены значений NaN на 0
12. Другие полезные возможности
▍Отбор случайных образцов из набора данных
Результаты выполнения команды
▍Перебор строк датафрейма
Следующая конструкция позволяет перебирать строки датафрейма:
Результаты выполнения команды
▍Борьба с ошибкой IOPub data rate exceeded
Если вы сталкиваетесь с ошибкой IOPub data rate exceeded — попробуйте, при запуске Jupyter Notebook, воспользоваться следующей командой:
Итоги
Здесь я рассказал о некоторых полезных приёмах использования pandas в среде Jupyter Notebook. Надеюсь, моя шпаргалка вам пригодится.