Python网络爬虫从入门到精通
明日科技
内容简介
本书从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。
本书列举了大量的小型实例、综合实例和部分项目案例;所附资源包内容有实例源程序及项目源码等;本书的服务网站提供了模块库、案例库、题库、素材库、答疑服务。
本书内容详尽,实例丰富,非常适合作为编程初学者的学习用书,也可作为Python开发人员的案头参考资料。 前言
在大数据、人工智能应用越来越普遍的今天,Python可以说是当下世界上最热门、应用最广泛的编程语言之一,在人工智能、爬虫、数据分析、游戏、自动化运维等各个方面,无处不见其身影。随着大数据时代的来临,数据的收集与统计占据了重要地位,而数据的收集工作在很大程度上需要通过网络爬虫来爬取,所以网络爬虫技术变得十分重要。
本书内容
本书提供了Python网络爬虫开发从入门到编程高手所必需的各类知识,共分4篇,大体结构如下图所示。
图片
第1篇:基础知识。本篇内容主要介绍网络爬虫入门知识,包括初识网络爬虫、搭建网络爬虫的开发环境、Web前端知识、Python自带的网络请求模块urllib、第三方请求模块urllib3和requests,以及高级网络请求模块。结合大量的图示、举例等使读者快速掌握网络爬虫开发…