Битва краулеров на Python (1): использование запросов и BeautifulSoup

задняя часть база данных Python рептилия
Битва краулеров на Python (1): использование запросов и BeautifulSoup

Основы Python

я писал раньшеМинималистский учебник по Python 3.pdf", подходит для быстрого старта с небольшой базой программирования, с помощью этой серии статей вы сможете завершить написание интерфейса самостоятельно, и писать мелкие вещи не составит труда.

requests

запросы, библиотека HTTP-запросов Python, эквивалентная Android Retrofit, ее функции включают Keep-Alive и пул соединений, сохранение файлов cookie, автоматическую распаковку содержимого, HTTP-прокси, аутентификацию SSL, тайм-аут соединения, сеанс и многие другие функции, а также совместимость с Python2 и Python3, Гитхаб:GitHub.com/requests/hot….

Установить

Мак:

pip3 install requests

Окна:

pip install requests

послать запрос

Методы HTTP-запроса: получить, опубликовать, положить, удалить.

import requests
​
# get 请求
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all')
​
# post 请求
response = requests.post('http://127.0.0.1:1024/developer/api/v1.0/insert')
​
# put 请求
response = requests.put('http://127.0.0.1:1024/developer/api/v1.0/update')
​
# delete 请求
response = requests.delete('http://127.0.0.1:1024/developer/api/v1.0/delete')

Запрос возвращает объект Response. Объект Response представляет собой инкапсуляцию данных ответа, возвращаемых сервером браузеру в протоколе HTTP. Основные элементы ответа включают в себя: код состояния, фразу причины, заголовок ответа, URL-адрес ответа, ответ кодировка, тело ответа и т. д. Подождите.

# 状态码
print(response.status_code)
​
# 响应 URL
print(response.url)
​
# 响应短语
print(response.reason)
​
# 响应内容
print(response.json())

настраиваемые заголовки запросов

Чтобы запросить добавление заголовков HTTP, просто передайте dict в параметр ключевого слова headers.

header = {'Application-Id': '19869a66c6',
          'Content-Type': 'application/json'
          }
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all/', headers=header)

Построить параметры запроса

Хотите передать какие-то данные для строки запроса URL, например:http://127.0.0.1:1024/developer/api/v1.0/all?key1=value1&key2=value2, Requests позволяет использовать аргумент ключевого слова params для предоставления этих аргументов в виде словаря строк.

payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("http://127.0.0.1:1024/developer/api/v1.0/all", params=payload)

Вы также можете передать список как значение:

payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
response = requests.get("http://127.0.0.1:1024/developer/api/v1.0/all", params=payload)
​
# 响应 URL
print(response.url)# 打印:http://127.0.0.1:1024/developer/api/v1.0/all?key1=value1&key2=value2&key2=value3

данные почтового запроса

Если данные, которые сервер требует отправить, являются данными формы, можно указать данные аргумента ключевого слова.

payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post("http://127.0.0.1:1024/developer/api/v1.0/insert", data=payload)

Если вам необходимо передать строковый параметр формата json, вы можете использовать параметр ключевого слова json, а значение параметра можно передать в виде словаря.

obj = {
    "article_title": "小公务员之死2"
}
# response = requests.post('http://127.0.0.1:1024/developer/api/v1.0/insert', json=obj)

содержание ответа

Requests автоматически декодирует контент с сервера. Большинство наборов символов Юникода можно легко декодировать. После того, как запрос сделан, Requests делает обоснованное предположение о кодировке ответа на основе заголовков HTTP.

# 响应内容
# 返回是 是 str 类型内容
# print(response.text())
# 返回是 JSON 响应内容
print(response.json())
# 返回是二进制响应内容
# print(response.content())
# 原始响应内容,初始请求中设置了 stream=True
# response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', stream=True)
# print(response.raw())

тайм-аут

Если значение тайм-аута не указано явно, время ожидания запросов не истекает автоматически. Если сервер не отвечает, все приложение блокируется и не может обрабатывать другие запросы.

response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', timeout=5)  # 单位秒数

настройки прокси

Если вы часто посещаете веб-сайт, его легко заблокировать сервером, а запросы отлично поддерживают прокси.

# 代理
proxies = {
    'http': 'http://127.0.0.1:1024',
    'https': 'http://127.0.0.1:4000',
}
response = requests.get('http://127.0.0.1:1024/developer/api/v1.0/all', proxies=proxies)

BeautifulSoup

BeautifulSoup, библиотека синтаксического анализа HTML для Python, эквивалентная jsoup в Java.

Установить

BeautifulSoup 3 в настоящее время не разрабатывается, и BeautifulSoup 4 используется напрямую.

Мак:

pip3 install beautifulsoup4

Окна:

pip install beautifulsoup4

Установить парсер

Я использую html5lib, реализованный на чистом Python.

Мак:

pip3 install html5lib

Окна:

pip install html5lib

Простой в использовании

BeautifulSoup преобразует сложные HTML-документы в сложную древовидную структуру, где каждый узел является объектом Python.

Разобрать

from bs4 import BeautifulSoup
​
def get_html_data():
    html_doc = """
    <html>
    <head>
    <title>WuXiaolong</title>
    </head>
    <body>
    <p>分享 Android 技术,也关注 Python 等热门技术。</p>
    <p>写博客的初衷:总结经验,记录自己的成长。</p>
    <p>你必须足够的努力,才能看起来毫不费力!专注!精致!
    </p>
    <p class="Blog"><a href="http://wuxiaolong.me/">WuXiaolong's blog</a></p>
    <p class="WeChat"><a href="https://open.weixin.qq.com/qr/code?username=MrWuXiaolong">公众号:吴小龙同学</a> </p>
    <p class="GitHub"><a href="http://example.com/tillie" class="sister" id="link3">GitHub</a></p>
    </body>
    </html>   
    """
    soup = BeautifulSoup(html_doc, "html5lib")

tag

tag = soup.head
print(tag)  # <head><title>WuXiaolong</title></head>
print(tag.name)  # head
print(tag.title)  # <title>WuXiaolong</title>
print(soup.p)  # <p>分享 Android 技术,也关注 Python 等热门技术。</p>
print(soup.a['href'])  # 输出 a 标签的 href 属性:http://wuxiaolong.me/

Примечание. Если совпадают несколько тегов, верните первый, например тег p здесь.

найти

print(soup.find('p'))  # <p>分享 Android 技术,也关注 Python 等热门技术。</p>

find также возвращает первую совпадающую метку по умолчанию и возвращает None, если соответствующий узел не найден. Если я хочу указать поиск, например официальный аккаунт здесь, я могу указать значение атрибута класса тега:

# 因为 class 是 Python 关键字,所以这里指定为 class_。
print(soup.find('p', class_="WeChat"))
# <p class="WeChat"><a href="https://open.weixin.qq.com/qr/code?username=MrWuXiaolong">公众号</a> </p>

Найти все теги P:

for p in soup.find_all('p'):
    print(p.string) 

настоящий бой

Некоторое время назад пользователи сообщили, что мое личное приложение не работает.Хотя я больше не поддерживаю это приложение, я могу, по крайней мере, обеспечить его нормальную работу. Большинство людей знают, что данные этого приложения сканируются (см.: "Научите, как сделать личное приложение"), одним из преимуществ сканирования данных является то, что вам не нужно управлять данными самостоятельно. Недостатком является то, что чужие веб-сайты не работают или изменились HTML-узлы веб-сайта. Я не могу разобрать это здесь, а данных нет. На этот раз, по отзывам пользователей, я думал о том, сканировать ли их данные веб-сайта напрямую. Я только что изучил Python самостоятельно, попрактиковал руки и сделал то, что сказал. Первоначально я думал об использовании краулера Python, вставив MySQL в локальную базу данных, а затем написать интерфейс самим Flask. , использовать настройку Android Retrofit, а затем использовать bmob sdk для вставки bmob... Эй, это трудоемко, я не думаю, что это сработает, затем я узнал, что bmob предоставляет RESTful для решения больших проблем я могу напрямую вставить краулер Python, и здесь я демонстрирую Это для вставки в локальную базу данных.Если используется bmob, это для настройки RESTful данных вставки, предоставленных bmob.

сайт выбран

Мой выбранный демонстрационный сайт:meiriyiwen.com/random, вы можете обнаружить, что запрашиваемые статьи каждый раз разные, просто чтобы воспользоваться этим, мне нужно только регулярно запрашивать, анализировать нужные мне данные и вставлять их в базу данных.

создать базу данных

Я создал его непосредственно с помощью NaviCat Premium, но, конечно, его можно использовать и из командной строки.

создать таблицу

Создайте таблицу article, используя mysql, для таблицы нужны поля id, articletitle, article_author, article_content, код выглядит следующим образом, вам нужно настроить его только один раз.

import pymysql
​
​
def create_table():
    # 建立连接
    db = pymysql.connect(host='localhost',
                         user='root',
                         password='root',
                         db='python3learn')
    # 创建名为 article 数据库语句
    sql = '''create table if not exists article (
    id int NOT NULL AUTO_INCREMENT, 
    article_title text,
    article_author text,
    article_content text,
    PRIMARY KEY (`id`)
    )'''
    # 使用 cursor() 方法创建一个游标对象 cursor
    cursor = db.cursor()
    try:
        # 执行 sql 语句
        cursor.execute(sql)
        # 提交事务
        db.commit()
        print('create table success')
    except BaseException as e:  # 如果发生错误则回滚
        db.rollback()
        print(e)
​
    finally:
        # 关闭游标连接
        cursor.close()
        # 关闭数据库连接
        db.close()
​
​
if __name__ == '__main__':
    create_table()
​

Разобрать веб-сайт

Сначала вам нужны запросы на запрос веб-сайта, а затем BeautifulSoup анализирует нужные ему узлы.

import requests
from bs4 import BeautifulSoup
​
​
def get_html_data():
    # get 请求
    response = requests.get('https://meiriyiwen.com/random')
​
    soup = BeautifulSoup(response.content, "html5lib")
    article = soup.find("div", id='article_show')
    article_title = article.h1.string
    print('article_title=%s' % article_title)
    article_author = article.find('p', class_="article_author").string
    print('article_author=%s' % article.find('p', class_="article_author").string)
    article_contents = article.find('div', class_="article_text").find_all('p')
    article_content = ''
    for content in article_contents:
        article_content = article_content + str(content)
        print('article_content=%s' % article_content)

Внести в базу

Здесь сделан фильтр, по умолчанию заголовок статьи этого сайта уникален, при вставке данных, если есть одинаковый заголовок, он не будет вставлен.

import pymysql
​
​
def insert_table(article_title, article_author, article_content):
    # 建立连接
    db = pymysql.connect(host='localhost',
                         user='root',
                         password='root',
                         db='python3learn',
                         charset="utf8")
    # 插入数据
    query_sql = 'select * from article where article_title=%s'
    sql = 'insert into article (article_title,article_author,article_content) values (%s, %s, %s)'
    # 使用 cursor() 方法创建一个游标对象 cursor
    cursor = db.cursor()
    try:
        query_value = (article_title,)
        # 执行 sql 语句
        cursor.execute(query_sql, query_value)
        results = cursor.fetchall()
        if len(results) == 0:
            value = (article_title, article_author, article_content)
            cursor.execute(sql, value)
            # 提交事务
            db.commit()
            print('--------------《%s》 insert table success-------------' % article_title)
            return True
        else:
            print('--------------《%s》 已经存在-------------' % article_title)
            return False
​
    except BaseException as e:  # 如果发生错误则回滚
        db.rollback()
        print(e)
​
    finally:  # 关闭游标连接
        cursor.close()
        # 关闭数据库连接
        db.close()

Настройки времени

Я сделал таймер, и через некоторое время пошел лезть.

import sched
import time
​
​
# 初始化 sched 模块的 scheduler 类
# 第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
schedule = sched.scheduler(time.time, time.sleep)
​
​
# 被周期性调度触发的函数
def print_time(inc):
    # to do something
    print('to do something')
    schedule.enter(inc, 0, print_time, (inc,))
​
​
# 默认参数 60 s
def start(inc=60):
    # enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,
    # 给该触发函数的参数(tuple形式)
    schedule.enter(0, 0, print_time, (inc,))
    schedule.run()
​
​
if __name__ == '__main__':
    # 5 s 输出一次
    start(5)

полный код

import pymysql
import requests
from bs4 import BeautifulSoup
import sched
import time
​
​
def create_table():
    # 建立连接
    db = pymysql.connect(host='localhost',
                         user='root',
                         password='root',
                         db='python3learn')
    # 创建名为 article 数据库语句
    sql = '''create table if not exists article (
    id int NOT NULL AUTO_INCREMENT, 
    article_title text,
    article_author text,
    article_content text,
    PRIMARY KEY (`id`)
    )'''
    # 使用 cursor() 方法创建一个游标对象 cursor
    cursor = db.cursor()
    try:
        # 执行 sql 语句
        cursor.execute(sql)
        # 提交事务
        db.commit()
        print('create table success')
    except BaseException as e:  # 如果发生错误则回滚
        db.rollback()
        print(e)
​
    finally:
        # 关闭游标连接
        cursor.close()
        # 关闭数据库连接
        db.close()
​
​
def insert_table(article_title, article_author, article_content):
    # 建立连接
    db = pymysql.connect(host='localhost',
                         user='root',
                         password='root',
                         db='python3learn',
                         charset="utf8")
    # 插入数据
    query_sql = 'select * from article where article_title=%s'
    sql = 'insert into article (article_title,article_author,article_content) values (%s, %s, %s)'
    # 使用 cursor() 方法创建一个游标对象 cursor
    cursor = db.cursor()
    try:
        query_value = (article_title,)
        # 执行 sql 语句
        cursor.execute(query_sql, query_value)
        results = cursor.fetchall()
        if len(results) == 0:
            value = (article_title, article_author, article_content)
            cursor.execute(sql, value)
            # 提交事务
            db.commit()
            print('--------------《%s》 insert table success-------------' % article_title)
            return True
        else:
            print('--------------《%s》 已经存在-------------' % article_title)
            return False
​
    except BaseException as e:  # 如果发生错误则回滚
        db.rollback()
        print(e)
​
    finally:  # 关闭游标连接
        cursor.close()
        # 关闭数据库连接
        db.close()
​
​
def get_html_data():
    # get 请求
    response = requests.get('https://meiriyiwen.com/random')
​
    soup = BeautifulSoup(response.content, "html5lib")
    article = soup.find("div", id='article_show')
    article_title = article.h1.string
    print('article_title=%s' % article_title)
    article_author = article.find('p', class_="article_author").string
    print('article_author=%s' % article.find('p', class_="article_author").string)
    article_contents = article.find('div', class_="article_text").find_all('p')
    article_content = ''
    for content in article_contents:
        article_content = article_content + str(content)
        print('article_content=%s' % article_content)
​
    # 插入数据库
    insert_table(article_title, article_author, article_content)
​
​
# 初始化 sched 模块的 scheduler 类
# 第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
schedule = sched.scheduler(time.time, time.sleep)
​
​
# 被周期性调度触发的函数
def print_time(inc):
    get_html_data()
    schedule.enter(inc, 0, print_time, (inc,))
​
​
# 默认参数 60 s
def start(inc=60):
    # enter四个参数分别为:间隔事件、优先级(用于同时间到达的两个事件同时执行时定序)、被调用触发的函数,
    # 给该触发函数的参数(tuple形式)
    schedule.enter(0, 0, print_time, (inc,))
    schedule.run()
​
​
if __name__ == '__main__':
    start(60*5)
​

Вопрос: Это краулер только для статьи.Если это список статей, нажмите на детали статьи, как парсить такой краулер? Прежде всего, вы должны получить список, а затем просмотреть детали аналитической статьи и вставить их в базу данных? Я еще не придумал, как сделать это лучше, так что давайте оставим это для следующей темы.

Наконец

Хоть я и изучаю Python чисто в качестве хобби, но приходится применять полученные знания, иначе эти знания быстро забудутся, и с нетерпением жду следующей статьи по Python.

Ссылаться на

Быстрый старт — Документация по запросам 2.18.1

Crawler Getting Started Series (2): Элегантные HTTP-запросы к библиотеке

Документация Beautiful Soup 4.2.0

Введение в Crawler Series (4): библиотека для анализа HTML-текста BeautifulSoup