Основы Python
я писал раньшеМинималистский учебник по Python 3.pdf", подходит для быстрого старта с небольшой базой программирования, с помощью этой серии статей вы сможете завершить написание интерфейса самостоятельно, и писать мелкие вещи не составит труда.
requests
запросы, библиотека HTTP-запросов Python, эквивалентная Android Retrofit, ее функции включают Keep-Alive и пул соединений, сохранение файлов cookie, автоматическую распаковку содержимого, HTTP-прокси, аутентификацию SSL, тайм-аут соединения, сеанс и многие другие функции, а также совместимость с Python2 и Python3, Гитхаб:GitHub.com/requests/hot….
Установить
Мак:
pip3 install requests
Окна:
pip install requests
послать запрос
Методы HTTP-запроса: получить, опубликовать, положить, удалить.
import requests
# get 请求
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all')
# post 请求
response = requests.post('http://127.0.0.1:1024/developer/api/v1.0/insert')
# put 请求
response = requests.put('http://127.0.0.1:1024/developer/api/v1.0/update')
# delete 请求
response = requests.delete('http://127.0.0.1:1024/developer/api/v1.0/delete')
Запрос возвращает объект Response. Объект Response представляет собой инкапсуляцию данных ответа, возвращаемых сервером браузеру в протоколе HTTP. Основные элементы ответа включают в себя: код состояния, фразу причины, заголовок ответа, URL-адрес ответа, ответ кодировка, тело ответа и т. д. Подождите.
# 状态码
print(response.status_code)
# 响应 URL
print(response.url)
# 响应短语
print(response.reason)
# 响应内容
print(response.json())
настраиваемые заголовки запросов
Чтобы запросить добавление заголовков HTTP, просто передайте dict в параметр ключевого слова headers.
header = {'Application-Id': '19869a66c6',
'Content-Type': 'application/json'
}
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all/', headers=header)
Построить параметры запроса
Хотите передать какие-то данные для строки запроса URL, например:http://127.0.0.1:1024/developer/api/v1.0/all?key1=value1&key2=value2, Requests позволяет использовать аргумент ключевого слова params для предоставления этих аргументов в виде словаря строк.
payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("http://127.0.0.1:1024/developer/api/v1.0/all", params=payload)
Вы также можете передать список как значение:
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
response = requests.get("http://127.0.0.1:1024/developer/api/v1.0/all", params=payload)
# 响应 URL
print(response.url)# 打印:http://127.0.0.1:1024/developer/api/v1.0/all?key1=value1&key2=value2&key2=value3
данные почтового запроса
Если данные, которые сервер требует отправить, являются данными формы, можно указать данные аргумента ключевого слова.
payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post("http://127.0.0.1:1024/developer/api/v1.0/insert", data=payload)
Если вам необходимо передать строковый параметр формата json, вы можете использовать параметр ключевого слова json, а значение параметра можно передать в виде словаря.
obj = {
"article_title": "小公务员之死2"
}
# response = requests.post('http://127.0.0.1:1024/developer/api/v1.0/insert', json=obj)
содержание ответа
Requests автоматически декодирует контент с сервера. Большинство наборов символов Юникода можно легко декодировать. После того, как запрос сделан, Requests делает обоснованное предположение о кодировке ответа на основе заголовков HTTP.
# 响应内容
# 返回是 是 str 类型内容
# print(response.text())
# 返回是 JSON 响应内容
print(response.json())
# 返回是二进制响应内容
# print(response.content())
# 原始响应内容,初始请求中设置了 stream=True
# response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', stream=True)
# print(response.raw())
тайм-аут
Если значение тайм-аута не указано явно, время ожидания запросов не истекает автоматически. Если сервер не отвечает, все приложение блокируется и не может обрабатывать другие запросы.
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', timeout=5) # 单位秒数
настройки прокси
Если вы часто посещаете веб-сайт, его легко заблокировать сервером, а запросы отлично поддерживают прокси.
# 代理
proxies = {
'http': 'http://127.0.0.1:1024',
'https': 'http://127.0.0.1:4000',
}
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', proxies=proxies)
BeautifulSoup
BeautifulSoup, библиотека синтаксического анализа HTML для Python, эквивалентная jsoup в Java.
Установить
BeautifulSoup 3 в настоящее время не разрабатывается, и BeautifulSoup 4 используется напрямую.
Мак:
pip3 install beautifulsoup4
Окна:
pip install beautifulsoup4
Установить парсер
Я использую html5lib, реализованный на чистом Python.
Мак:
pip3 install html5lib
Окна:
pip install html5lib
Простой в использовании
BeautifulSoup преобразует сложные HTML-документы в сложную древовидную структуру, где каждый узел является объектом Python.
Разобрать
from bs4 import BeautifulSoup
def get_html_data():
html_doc = """
<html>
<head>
<title>WuXiaolong</title>
</head>
<body>
<p>分享 Android 技术,也关注 Python 等热门技术。</p>
<p>写博客的初衷:总结经验,记录自己的成长。</p>
<p>你必须足够的努力,才能看起来毫不费力!专注!精致!
</p>
<p class="Blog"><a href="http://wuxiaolong.me/">WuXiaolong's blog</a></p>
<p class="WeChat"><a href="https://open.weixin.qq.com/qr/code?username=MrWuXiaolong">公众号:吴小龙同学</a> </p>
<p class="GitHub"><a href="http://example.com/tillie" class="sister" id="link3">GitHub</a></p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, "html5lib")
tag
tag = soup.head
print(tag) # <head><title>WuXiaolong</title></head>
print(tag.name) # head
print(tag.title) # <title>WuXiaolong</title>
print(soup.p) # <p>分享 Android 技术,也关注 Python 等热门技术。</p>
print(soup.a['href']) # 输出 a 标签的 href 属性:http://wuxiaolong.me/
Примечание. Если совпадают несколько тегов, верните первый, например тег p здесь.
найти
print(soup.find('p')) # <p>分享 Android 技术,也关注 Python 等热门技术。</p>
find также возвращает первую совпадающую метку по умолчанию и возвращает None, если соответствующий узел не найден. Если я хочу указать поиск, например официальный аккаунт здесь, я могу указать значение атрибута класса тега:
# 因为 class 是 Python 关键字,所以这里指定为 class_。
print(soup.find('p', class_="WeChat"))
# <p class="WeChat"><a href="https://open.weixin.qq.com/qr/code?username=MrWuXiaolong">公众号</a> </p>
Найти все теги P:
for p in soup.find_all('p'):
print(p.string)
настоящий бой
Некоторое время назад пользователи сообщили, что мое личное приложение не работает.Хотя я больше не поддерживаю это приложение, я могу, по крайней мере, обеспечить его нормальную работу. Большинство людей знают, что данные этого приложения сканируются (см.: "Научите, как сделать личное приложение"), одним из преимуществ сканирования данных является то, что вам не нужно управлять данными самостоятельно. Недостатком является то, что чужие веб-сайты не работают или изменились HTML-узлы веб-сайта. Я не могу разобрать это здесь, а данных нет. На этот раз, по отзывам пользователей, я думал о том, сканировать ли их данные веб-сайта напрямую. Я только что изучил Python самостоятельно, попрактиковал руки и сделал то, что сказал. Первоначально я думал об использовании краулера Python, вставив MySQL в локальную базу данных, а затем написать интерфейс самим Flask. , использовать настройку Android Retrofit, а затем использовать bmob sdk для вставки bmob... Эй, это трудоемко, я не думаю, что это сработает, затем я узнал, что bmob предоставляет RESTful для решения больших проблем я могу напрямую вставить краулер Python, и здесь я демонстрирую Это для вставки в локальную базу данных.Если используется bmob, это для настройки RESTful данных вставки, предоставленных bmob.
сайт выбран
Мой выбранный демонстрационный сайт:meiriyiwen.com/random, вы можете обнаружить, что запрашиваемые статьи каждый раз разные, просто чтобы воспользоваться этим, мне нужно только регулярно запрашивать, анализировать нужные мне данные и вставлять их в базу данных.
создать базу данных
Я создал его непосредственно с помощью NaviCat Premium, но, конечно, его можно использовать и из командной строки.
создать таблицу
Создайте таблицу article, используя mysql, для таблицы нужны поля id, articletitle, article_author, article_content, код выглядит следующим образом, вам нужно настроить его только один раз.
import pymysql
def create_table():
# 建立连接
db = pymysql.connect(host='localhost',
user='root',
password='root',
db='python3learn')
# 创建名为 article 数据库语句
sql = '''create table if not exists article (
id int NOT NULL AUTO_INCREMENT,
article_title text,
article_author text,
article_content text,
PRIMARY KEY (`id`)
)'''
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()
try:
# 执行 sql 语句
cursor.execute(sql)
# 提交事务
db.commit()
print('create table success')
except BaseException as e: # 如果发生错误则回滚
db.rollback()
print(e)
finally:
# 关闭游标连接
cursor.close()
# 关闭数据库连接
db.close()
if __name__ == '__main__':
create_table()
Разобрать веб-сайт
Сначала вам нужны запросы на запрос веб-сайта, а затем BeautifulSoup анализирует нужные ему узлы.
import requests
from bs4 import BeautifulSoup
def get_html_data():
# get 请求
response = requests.get('https://meiriyiwen.com/random')
soup = BeautifulSoup(response.content, "html5lib")
article = soup.find("div", id='article_show')
article_title = article.h1.string
print('article_title=%s' % article_title)
article_author = article.find('p', class_="article_author").string
print('article_author=%s' % article.find('p', class_="article_author").string)
article_contents = article.find('div', class_="article_text").find_all('p')
article_content = ''
for content in article_contents:
article_content = article_content + str(content)
print('article_content=%s' % article_content)
Внести в базу
Здесь сделан фильтр, по умолчанию заголовок статьи этого сайта уникален, при вставке данных, если есть одинаковый заголовок, он не будет вставлен.
import pymysql
def insert_table(article_title, article_author, article_content):
# 建立连接
db = pymysql.connect(host='localhost',
user='root',
password='root',
db='python3learn',
charset="utf8")
# 插入数据
query_sql = 'select * from article where article_title=%s'
sql = 'insert into article (article_title,article_author,article_content) values (%s, %s, %s)'
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()
try:
query_value = (article_title,)
# 执行 sql 语句
cursor.execute(query_sql, query_value)
results = cursor.fetchall()
if len(results) == 0:
value = (article_title, article_author, article_content)
cursor.execute(sql, value)
# 提交事务
db.commit()
print('--------------《%s》 insert table success-------------' % article_title)
return True
else:
print('--------------《%s》 已经存在-------------' % article_title)
return False
except BaseException as e: # 如果发生错误则回滚
db.rollback()
print(e)
finally: # 关闭游标连接
cursor.close()
# 关闭数据库连接
db.close()
Настройки времени
Я сделал таймер, и через некоторое время пошел лезть.
import sched
import time
# 初始化 sched 模块的 scheduler 类
# 第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
schedule = sched.scheduler(time.time, time.sleep)
# 被周期性调度触发的函数
def print_time(inc):
# to do something
print('to do something')
schedule.enter(inc, 0, print_time, (inc,))
# 默认参数 60 s
def start(inc=60):
# enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,
# 给该触发函数的参数(tuple形式)
schedule.enter(0, 0, print_time, (inc,))
schedule.run()
if __name__ == '__main__':
# 5 s 输出一次
start(5)
полный код
import pymysql
import requests
from bs4 import BeautifulSoup
import sched
import time
def create_table():
# 建立连接
db = pymysql.connect(host='localhost',
user='root',
password='root',
db='python3learn')
# 创建名为 article 数据库语句
sql = '''create table if not exists article (
id int NOT NULL AUTO_INCREMENT,
article_title text,
article_author text,
article_content text,
PRIMARY KEY (`id`)
)'''
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()
try:
# 执行 sql 语句
cursor.execute(sql)
# 提交事务
db.commit()
print('create table success')
except BaseException as e: # 如果发生错误则回滚
db.rollback()
print(e)
finally:
# 关闭游标连接
cursor.close()
# 关闭数据库连接
db.close()
def insert_table(article_title, article_author, article_content):
# 建立连接
db = pymysql.connect(host='localhost',
user='root',
password='root',
db='python3learn',
charset="utf8")
# 插入数据
query_sql = 'select * from article where article_title=%s'
sql = 'insert into article (article_title,article_author,article_content) values (%s, %s, %s)'
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()
try:
query_value = (article_title,)
# 执行 sql 语句
cursor.execute(query_sql, query_value)
results = cursor.fetchall()
if len(results) == 0:
value = (article_title, article_author, article_content)
cursor.execute(sql, value)
# 提交事务
db.commit()
print('--------------《%s》 insert table success-------------' % article_title)
return True
else:
print('--------------《%s》 已经存在-------------' % article_title)
return False
except BaseException as e: # 如果发生错误则回滚
db.rollback()
print(e)
finally: # 关闭游标连接
cursor.close()
# 关闭数据库连接
db.close()
def get_html_data():
# get 请求
response = requests.get('https://meiriyiwen.com/random')
soup = BeautifulSoup(response.content, "html5lib")
article = soup.find("div", id='article_show')
article_title = article.h1.string
print('article_title=%s' % article_title)
article_author = article.find('p', class_="article_author").string
print('article_author=%s' % article.find('p', class_="article_author").string)
article_contents = article.find('div', class_="article_text").find_all('p')
article_content = ''
for content in article_contents:
article_content = article_content + str(content)
print('article_content=%s' % article_content)
# 插入数据库
insert_table(article_title, article_author, article_content)
# 初始化 sched 模块的 scheduler 类
# 第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
schedule = sched.scheduler(time.time, time.sleep)
# 被周期性调度触发的函数
def print_time(inc):
get_html_data()
schedule.enter(inc, 0, print_time, (inc,))
# 默认参数 60 s
def start(inc=60):
# enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,
# 给该触发函数的参数(tuple形式)
schedule.enter(0, 0, print_time, (inc,))
schedule.run()
if __name__ == '__main__':
start(60*5)
Вопрос: Это краулер только для статьи.Если это список статей, нажмите на детали статьи, как парсить такой краулер? Прежде всего, вы должны получить список, а затем просмотреть детали аналитической статьи и вставить их в базу данных? Я еще не придумал, как сделать это лучше, так что давайте оставим это для следующей темы.
Наконец
Хоть я и изучаю Python чисто в качестве хобби, но приходится применять полученные знания, иначе эти знания быстро забудутся, и с нетерпением жду следующей статьи по Python.
Ссылаться на
Быстрый старт — Документация по запросам 2.18.1
Crawler Getting Started Series (2): Элегантные HTTP-запросы к библиотеке
Документация Beautiful Soup 4.2.0
Введение в Crawler Series (4): библиотека для анализа HTML-текста BeautifulSoup