Гусеничный бой на основе Голанга

предисловие

Краулер изначально был сильной стороной питона.Я изучал скраппи на ранней стадии и писал несколько простых апплетов краулера, но потом вдруг заинтересовался голангом и решил писать и писать краулер для тренировки рук. Так как я новичок в golang, если есть какие-либо ошибки, пожалуйста, поправьте меня.

Главная идея

Поскольку сейчас существует много динамических страниц, рассмотрите возможность использования WebDriver для управления Chrome и другими страницами для рендеринга, а затем получения данных. (Вначале использовался Phantomjs, но в дальнейшем этот продукт не поддерживается, да и эффективность невысокая)
Как правило, поисковые роботы работают в системах Linux, поэтому рассмотрите вариант безголового режима Chrome.
После сбора данных они сохраняются в файл CSV, а затем отправляются по электронной почте.

недостаточность

Поскольку требуется рендеринг, скорость будет сильно снижена, даже если изображение не визуализируется, скорость не очень идеальна.
Т.к. я только начал учиться, я не стал добавлять многопоточность или что-то еще, опасаясь, что память рухнет.
В конце концов, не записывать данные в базу данных, а помещать их в файл — это не окончательное решение.

требуемая библиотека

github.com/tebeka/selenium
- Golang-версия селена может реализовать большинство функций.
gopkg.in/gomail.v2
- Библиотека, используемая для отправки писем, давно не обновлялась, но ее достаточно.

Скачать пакеты зависимостей

Я планировал использовать dep для управления зависимостями, но оказалось, что питов довольно много.
Скачать зависимости через go get

go get github.com/tebeka/selenium
go get gopkg.in/gomail.v2

Код

Запустите chromedriver, который используется для управления браузером Chrome.

// StartChrome 启动谷歌浏览器headless模式
func StartChrome() {
	opts := []selenium.ServiceOption{}
	caps := selenium.Capabilities{
		"browserName":                      "chrome",
	}
    
        // 禁止加载图片，加快渲染速度
	imagCaps := map[string]interface{}{
		"profile.managed_default_content_settings.images": 2,
	}

	chromeCaps := chrome.Capabilities{
		Prefs: imagCaps,
		Path:  "",
		Args: []string{
			"--headless", // 设置Chrome无头模式
			"--no-sandbox",
			"--user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/604.4.7 (KHTML, like Gecko) Version/11.0.2 Safari/604.4.7", // 模拟user-agent，防反爬
		},
	}
	caps.AddChrome(chromeCaps)
        // 启动chromedriver，端口号可自定义
	service, err = selenium.NewChromeDriverService("/opt/google/chrome/chromedriver", 9515, opts...) 
	if err != nil {
		log.Printf("Error starting the ChromeDriver server: %v", err)
	}
        // 调起chrome浏览器
	webDriver, err = selenium.NewRemote(caps, fmt.Sprintf("http://localhost:%d/wd/hub", 9515))
	if err != nil {
		panic(err)
	}
	// 这是目标网站留下的坑，不加这个在linux系统中会显示手机网页，每个网站的策略不一样，需要区别处理。
	webDriver.AddCookie(&selenium.Cookie{
		Name:  "defaultJumpDomain",
		Value: "www",
	})
        // 导航到目标网站
	err = webDriver.Get(urlBeijing)
	if err != nil {
		panic(fmt.Sprintf("Failed to load page: %s\n", err))
	}
	log.Println(webDriver.Title())
}

С помощью приведенного выше кода вы можете запустить Chrome с помощью кода и перейти на целевой веб-сайт, что удобно для следующего сбора данных.

Инициализировать CSV, где хранятся данные

// SetupWriter 初始化CSV
func SetupWriter() {
	dateTime = time.Now().Format("2006-01-02 15:04:05") // 格式字符串是固定的，据说是go语言诞生时间，谷歌的恶趣味...
	os.Mkdir("data", os.ModePerm)
	csvFile, err := os.Create(fmt.Sprintf("data/%s.csv", dateTime))
	if err != nil {
		panic(err)
	}
	csvFile.WriteString("\xEF\xBB\xBF")
	writer = csv.NewWriter(csvFile)
	writer.Write([]string{"车型", "行驶里程", "首次上牌", "价格", "所在地", "门店"})
}

парсинг данных

Эта часть является основной деятельностью. Метод сканирования каждого веб-сайта отличается, но идея одна и та же. Содержимое элемента получается с помощью xpath, селектора css, className, tagName и т. д. Selenium API может реализовать большинство операций. , вы можете видеть из исходного кода селена, основной API включает в себя WebDriver и WebElement, ниже приведен процесс получения данных о подержанных автомобилях из дома подержанных автомобилей в Пекине, другие веб-сайты могут ссылаться на процесс модификации.

Откройте веб-сайт подержанных автомобилей через браузер Safari и получите ссылку на домашнюю страницу подержанных автомобилей в Пекине.

const urlBeijing = "https://www.che168.com/beijing/list/#pvareaid=104646"

Щелкните правой кнопкой мыши «Проверить элемент» на странице, чтобы войти в режим разработчика, вы увидите, что все данные есть.

<ul class="fn-clear certification-list" id="viewlist_ul">

Щелкните правой кнопкой мыши на этом предложении с помощью мыши, а затем拷贝-XPath, вы можете получить атрибут xpath, где находится измененный элемент

//*[@id="viewlist_ul"]

затем по коду

listContainer, err := webDriver.FindElement(selenium.ByXPATH, "//*[@id=\"viewlist_ul\"]")

Вы можете получить объект WebElement измененного html. Нетрудно увидеть, что это родительский контейнер всех данных. Чтобы получить конкретные данные, вам нужно найти каждое подмножество элементов, которое можно увидеть в режиме разработки. .

Класс carinfo можно получить с помощью инструментов разработчика, потому что есть несколько элементов этого элемента, поэтому передайте

lists, err := listContainer.FindElements(selenium.ByClassName, "carinfo")

Вы можете получить набор всех подмножеств элементов.Чтобы получить данные элемента в каждом подмножестве, вам нужно пройти множество

for i := 0; i < len(lists); i++ {
	var urlElem selenium.WebElement
	if pageIndex == 1 {
		urlElem, err = webDriver.FindElement(selenium.ByXPATH, fmt.Sprintf("//*[@id='viewlist_ul']/li[%d]/a", i+13))
	} else {
		urlElem, err = webDriver.FindElement(selenium.ByXPATH, fmt.Sprintf("//*[@id='viewlist_ul']/li[%d]/a", i+1))
	}
	if err != nil {
		break
	}
	// 因为有些数据在次级页面，需要跳转
	url, err := urlElem.GetAttribute("href") 
	if err != nil {
		break
	}
    webDriver.Get(url)
	title, _ := webDriver.Title()
	log.Printf("当前页面标题：%s\n", title)
        // 获取车辆型号
	modelElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[1]/h2")
	var model string
	if err != nil {
		log.Println(err)
		model = "暂无"
	} else {
		model, _ = modelElem.Text()
	}
	log.Printf("model=[%s]\n", model)
	
    ...
    
    // 数据写入CSV
    writer.Write([]string{model, miles, date, price, position, store})
	writer.Flush()
	webDriver.Back() // 回退到上级页面重复步骤抓取
}

Все исходные коды следующие, новички, легкий спрей~~

// StartCrawler 开始爬取数据
func StartCrawler() {
	log.Println("Start Crawling at ", time.Now().Format("2006-01-02 15:04:05"))
	pageIndex := 0
	for {
		listContainer, err := webDriver.FindElement(selenium.ByXPATH, "//*[@id=\"viewlist_ul\"]")
		if err != nil {
			panic(err)
		}
		lists, err := listContainer.FindElements(selenium.ByClassName, "carinfo")
		if err != nil {
			panic(err)
		}
		log.Println("数据量：", len(lists))
		pageIndex++
		log.Printf("正在抓取第%d页数据...\n", pageIndex)
		for i := 0; i < len(lists); i++ {
			var urlElem selenium.WebElement
			if pageIndex == 1 {
				urlElem, err = webDriver.FindElement(selenium.ByXPATH, fmt.Sprintf("//*[@id='viewlist_ul']/li[%d]/a", i+13))
			} else {
				urlElem, err = webDriver.FindElement(selenium.ByXPATH, fmt.Sprintf("//*[@id='viewlist_ul']/li[%d]/a", i+1))
			}
			if err != nil {
				break
			}
			url, err := urlElem.GetAttribute("href")
			if err != nil {
				break
			}
			webDriver.Get(url)
			title, _ := webDriver.Title()
			log.Printf("当前页面标题：%s\n", title)

			modelElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[1]/h2")
			var model string
			if err != nil {
				log.Println(err)
				model = "暂无"
			} else {
				model, _ = modelElem.Text()
			}
			log.Printf("model=[%s]\n", model)

			priceElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[2]/div/ins")
			var price string
			if err != nil {
				log.Println(err)
				price = "暂无"
			} else {
				price, _ = priceElem.Text()
				price = fmt.Sprintf("%s万", price)
			}
			log.Printf("price=[%s]\n", price)

			milesElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[4]/ul/li[1]/span")
			var miles string
			if err != nil {
				log.Println(err)
				milesElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[3]/ul/li[1]/span")
				if err != nil {
					log.Println(err)
					miles = "暂无"
				} else {
					miles, _ = milesElem.Text()
				}
			} else {
				miles, _ = milesElem.Text()
			}
			log.Printf("miles=[%s]\n", miles)

			timeElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[4]/ul/li[2]/span")
			var date string
			if err != nil {
				log.Println(err)
				timeElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[3]/ul/li[2]/span")
				if err != nil {
					log.Println(err)
					date = "暂无"
				} else {
					date, _ = timeElem.Text()
				}
			} else {
				date, _ = timeElem.Text()
			}
			log.Printf("time=[%s]\n", date)

			positionElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[4]/ul/li[4]/span")
			var position string
			if err != nil {
				log.Println(err)
				positionElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[3]/ul/li[4]/span")
				if err != nil {
					log.Println(err)
					position = "暂无"
				} else {
					position, _ = positionElem.Text()
				}
			} else {
				position, _ = positionElem.Text()
			}
			log.Printf("position=[%s]\n", position)

			storeElem, err := webDriver.FindElement(selenium.ByXPATH, "/html/body/div[5]/div[2]/div[1]/div/div/div")
			var store string
			if err != nil {
				log.Println(err)
				store = "暂无"
			} else {
				store, _ = storeElem.Text()
				store = strings.Replace(store, "商家|", "", -1)
				if strings.Contains(store, "金牌店铺") {
					store = strings.Replace(store, "金牌店铺", "", -1)
				}
			}
			log.Printf("store=[%s]\n", store)
			writer.Write([]string{model, miles, date, price, position, store})
			writer.Flush()
			webDriver.Back()
		}
		log.Printf("第%d页数据已经抓取完毕，开始下一页...\n", pageIndex)
		nextButton, err := webDriver.FindElement(selenium.ByClassName, "page-item-next")
		if err != nil {
			log.Println("所有数据抓取完毕！")
			break
		}
		nextButton.Click()
	}
	log.Println("Crawling Finished at ", time.Now().Format("2006-01-02 15:04:05"))
	sendResult(dateTime)
}

отправить электронное письмо

Весь код выглядит следующим образом, он относительно прост и повторяться не будет.

func sendResult(fileName string) {
	email := gomail.NewMessage()
	email.SetAddressHeader("From", "re**ng@163.com", "张**")
	email.SetHeader("To", email.FormatAddress("li**yang@163.com", "李**"))
	email.SetHeader("Cc", email.FormatAddress("zhang**tao@163.net", "张**"))
	email.SetHeader("Subject", "二手车之家-北京-二手车信息")
	email.SetBody("text/plain;charset=UTF-8", "本周抓取到的二手车信息数据，请注意查收！\n")
	email.Attach(fmt.Sprintf("data/%s.csv", fileName))

	dialer := &gomail.Dialer{
		Host:     "smtp.163.com",
		Port:     25,
		Username: ${your_email},    // 替换自己的邮箱地址
		Password: ${smtp_password}, // 自定义smtp服务器密码
		SSL:      false,
	}
	if err := dialer.DialAndSend(email); err != nil {
		log.Println("邮件发送失败！err: ", err)
		return
	}
	log.Println("邮件发送成功！")
}

Последнее замечание по переработке ресурсов

defer service.Stop()    // 停止chromedriver
defer webDriver.Quit()  // 关闭浏览器
defer csvFile.Close()   // 关闭文件流

Суммировать

Начинаю изучать golang, просто потренируйтесь с проектом краулера, код относительно грубый и вообще никакой инженерии, надеюсь не будет вводить в заблуждение.
Поскольку у поискового робота Golang в основном нет других проектов, у которых можно было бы учиться, у него также есть некоторые результаты собственных исследований, и я надеюсь, что он может помочь другим.
Наконец, краулер-фреймворк, написанный великим богом Amway.Pholcus, мощный, является относительно полной структурой.