Эта статья участвует в "Месяце тем Python", подробнее см.Ссылка на мероприятие
В современном мире каждый день генерируются огромные объемы данных. Иногда для анализа данных на наличие определенных тенденций шаблоны могут стать сложными, если данные представлены в необработанном формате. Чтобы преодолеть это, в игру вступает визуализация данных. Визуализация данных обеспечивает хорошо организованное графическое представление данных, упрощая их понимание, наблюдение и анализ. В этой серии руководств мы обсудим, как визуализировать данные с помощью Python.
Мы обсудим эти библиотеки одну за другой и нарисуем некоторые из наиболее часто используемых графиков.
Уведомление:Если вам нужна подробная информация об этих библиотеках, вы можете следовать их полным руководствам.
Прежде чем погрузиться в эти библиотеки, во-первых, нам нужна база данных для построения данных. Мы будем использовать базу данных подсказок на протяжении всего этого полного руководства. Давайте обсудим введение в эту базу данных.
используемая база данных
база данных советов
База данных о чаевых представляет собой записи клиентов, оставляющих чаевые в ресторанах в начале 1990-х годов за два с половиной месяца. Он содержит 6 столбцов, таких как total_bill, чаевые, пол, курильщик, день, время, размер.
ты можешь начатьздесьСкачать базу советов.
пример:
import pandas as pd
# 读取数据库
data = pd.read_csv("tips.csv")
# 打印前 10 行
print(data.head(10))
вывод:
Matplotlib
Matplotlib — это простая в использовании низкоуровневая библиотека визуализации данных, построенная на массивах NumPy. Он состоит из различных графиков, таких как диаграммы рассеяния, линейные графики, гистограммы и т. д. Matplotlib предлагает большую гибкость.
Чтобы установить эту библиотеку, введите следующую команду в терминале.
pip install matplotlib
После установки Matplotlib давайте рассмотрим наиболее часто используемые графики с использованием этой библиотеки.
График рассеяния
Диаграммы рассеивания используются для наблюдения за взаимосвязью между переменными и используют точки для представления взаимосвязи между ними. Метод scatter() в библиотеке matplotlib используется для построения точечных диаграмм.
пример:
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据库
data = pd.read_csv("tips.csv")
# day 对 tip 的散点图
plt.scatter(data['day'], data['tip'])
# 为 Plot 添加标题
plt.title("Scatter Plot")
# 设置 X 和 Y 标签
plt.xlabel('Day')
plt.ylabel('Tip')
plt.show()
вывод:
Этот график имел бы больше смысла, если бы мы могли добавить цвет и изменить размер точек. Мы можем сделать это, используя функцию разброса соответственнос и спараметры для этого. Мы также можем отобразить цветовую полосу, используя метод colorbar().
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据库
data = pd.read_csv("tips.csv")
# day对tip的散点图
plt.scatter(data['day'], data['tip'], c=data['size'],
s=data['total_bill'])
# 为Plot添加标题
plt.title("Scatter Plot")
# 设置 X 和 Y 标签
plt.xlabel('Day')
plt.ylabel('Tip')
plt.colorbar()
plt.show()
линейный график
Линейные диаграммы используются для представления взаимосвязи между двумя данными X и Y на разных осях. он используетplot()рисуется функцией. Давайте посмотрим на пример ниже.
пример:
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据库
data = pd.read_csv("tips.csv")
# day对tip的折线图
plt.plot(data['tip'])
plt.plot(data['size'])
# 为Plot添加标题
plt.title("Scatter Plot")
# 设置 X 和 Y 标签
plt.xlabel('Day')
plt.ylabel('Tip')
plt.show()
вывод:
гистограмма
Столбчатая диаграмма или столбчатая диаграмма — это график, который представляет категории данных с прямоугольными столбцами длины и высоты, которые пропорциональны значениям, которые они представляют. Его можно создать с помощью метода bar().
пример:
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据库
data = pd.read_csv("tips.csv")
# day对tip的条形图
plt.bar(data['day'], data['tip'])
plt.title("Bar Chart")
# 设置 X 和 Y 标签
plt.xlabel('Day')
plt.ylabel('Tip')
# 添加图例
plt.show()
вывод:
Гистограмма
Гистограммы в основном используются для представления данных в некоторой групповой форме. Это гистограмма, в которой ось X представляет диапазон ячеек, а ось Y предоставляет информацию о частоте. Функция hist() используется для расчета и создания гистограмм. В гистограмме, если мы передадим категориальные данные, она автоматически рассчитает частоту этих данных, то есть как часто встречается каждое значение.
пример:
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据库
data = pd.read_csv("tips.csv")
# total_bill直方图
plt.hist(data['total_bill'])
plt.title("Histogram")
# 添加图例
plt.show()
вывод:
Все вышеперечисленное — это примеры визуализации данных с использованием Python и Matplotlib, об этом мы поговорим в следующем разделе.Seaborn
🥇 Резюме серии Python для визуализации данных
- Matplotlib для визуализации данных с помощью Python
- Seaborn для визуализации данных с использованием Python
- Боке для визуализации данных с помощью Python
- Plotly для визуализации данных с помощью Python
🧵 Другие статьи по теме
- Обработка исключений Python
- Учебник по многопоточности Python
- Основы программирования сокетов Python
- 30 руководств и советов по Python
- Операторы Python, выражения и отступы
- Ключевые слова Python, идентификаторы и переменные
- Как писать комментарии и многострочные комментарии в Python
- Изучите преобразование чисел и типов Python на примерах
- Типы данных Python — от базового до продвинутого обучения
- Научит вас, как использовать Python для создания игры про змей
- Объектно-ориентированное программирование на Python — классы, объекты и члены
🍰Рекомендуемые статьи из прошлого:
- 20 советов по Python, которые должен знать каждый
- 100 основных вопросов на собеседовании по Python, часть 1 (1–20)
- 100 основных вопросов на собеседовании по Python, часть II (21–40)
- 100 основных вопросов на собеседовании по Python, часть 3 (41–60)
- 100 основных вопросов на собеседовании по Python, часть 4 (61–80)
- 100 основных вопросов на собеседовании по Python, часть 5 (81–100)
Если вы действительно узнали что-то новое из этой статьи, ставьте лайк, добавляйте в закладки и делитесь с друзьями. 🤗Наконец, не забудьте поддержать ❤ или 📑