Python网络爬虫入门到实战

图片前言 PREFACE 本书内容本书通过简单易懂的案例，讲解Python语言的爬虫技术。全书共分为8章，第1章为网页的内容，第2~7章为爬虫的内容，第8章为Linux基础。第1章：介绍了HTML和CSS的基础知识，虽然本章并不是直接与爬虫相关，但它是学习爬虫技术的基础。对于已经掌握基本网页基础的读者，可以选择跳过该章。第2章：正式进入爬虫技术的学习阶段，这一章介绍了最基本的两个请求库（urllib和Requests），有知识点的讲解，也有实战案例的讲解。第3章：本章对正则表达式做了详细的描述，同时有案例的实践。学完本章就可以掌握最基本的爬虫技术了。第4章：主要介绍XPath解析库，配有实际的案例进行讲解，以帮助读者加深理解和巩固。第5章：主要介绍另一个解析库Beautiful Soup，它在提取数据中也很方便，对相关知识点以及实际的案例都有所讲解。XPath和Beautiful Soup可以使信息的提取更加方便、快捷，是爬虫必备利器。第6章：主要介绍selenium自动化测试。现在越来越多的网站内容是经过JavaScript渲染得到的，而原始HTML文本可能不包含任何有效内容，使用模块selenium实现模拟浏览器进行数据爬取是非常好的选择。第7章：在大规模数据的爬取中，不太用得上基础模块，Scrapy是目前使用最广泛的爬虫框架之一，本章介绍了Scrapy爬虫框架的详细搭建和实践。针对数据存储过程部分使用的MySql数据库，整章有多个实际的案例，以帮助读者加深理解和巩固。第8章：主要介绍了Linux的基础知识点，以帮助读者能够在服务器部署脚本。相关资源本书所有代码和相关素材可以到GitHub下载获取，地址为https://github.com/sfvsfv/Crawer。关于代码的实用性需要声明：所有代码都是笔者在写书阶段编写的，如果有部分爬虫脚…