从零开始学Python网络爬虫

罗攀 蒋仟
前言 随着Internet的飞速发展,互联网中每天都会产生大量的非结构化数据。如何从这些非结构化数据中提取有效信息,供人们在学习和工作中使用呢?这个问题促使网络爬虫技术应运而生。由于Python语言简单易用,而且还提供了优秀易用的第三方库和多样的爬虫框架,所以使得它成为了网络爬虫技术的主力军。近年来,大数据技术发展迅速,数据爬取作为数据分析的一环也显得尤为重要。程序员要进入与数据处理、分析和挖掘等相关的行业,就必须要掌握Python语言及其网络爬虫的运用,这样才能在就业严峻的市场环境中有较强的职场竞争力和较好的职业前景。 目前,图书市场上仅有的几本Python网络爬虫类图书,要么是国外优秀图书,但书籍翻译隐晦,阅读难度大,而且往往由于网络原因,使得书中的案例不能正常使用,因此不适合初学者;要么是国内资料,但质量参差不齐,而且不成系统,同样不适合初学者。整个图书市场上还鲜见一本适合初学者阅读的Python网络爬虫类图书。本书便是基于这个原因而编写。本书从Python语言基础讲起,然后深入浅出地介绍了爬虫原理、各种爬虫技术及22个爬虫实战案例。本书全部选用国内网站作为爬虫案例,便于读者理解和实现,同时也可以大大提高读者对Python网络爬虫项目的实战能力。 本书特色 1.涵盖Windows 7系统第三方库的安装与配置 本书包含Python模块源的配置、第三方库的安装和使用,以及PyCharm的安装和使用。 2.对网络爬虫技术进行了原理性的分析 本书从一开始便对网络连接和爬虫原理做了基本介绍,并对网络爬虫的基本流程做了详细讲解,便于读者理解本书后面章节中的爬虫项目案例。 3.内容全面,应用性强 本书介绍了从单线程到多进程,从同步加载到异步加载,从简单爬虫到框架爬虫等一系列爬虫技术,具有超强的实用性,读者可以随时查阅和参考。 4.项目案例典型,实战性强,有较高的应用价值 本书介绍…