Python网络爬虫从入门到实践

庄培杰 编著
作者简介 图片 庄培杰(ID:CoderPig) CSDN 博客专家 (全站排名153,文章阅读量1633万以上)、简书程序员专栏优秀作者、掘金开发者社区联合编辑。 擅长Python和Android开发。 微信号码:python-zpj 图片 前言 笔者是一名Android开发工程师,在接触Python之前,每天的工作流程基本上都是接到新版本的需求→写新页面→修改接口和业务逻辑,非常乏味。 持续性的重复劳动,让笔者意识到一个问题:如果只会 Android 开发,能做的事情非常有限!例如,自己写一个App,如果没有可供调用的API,那么只能得到一个单机的App。因为自己对后台相关的技术一窍不通,平时根本不用去了解这方面的知识,只要给后台发出请求,然后解析数据,显示到页面上就好。 笔者开始琢磨花点时间去学习后台开发的知识,候选方案有Java、Kotlin、Python、PHP和Go。因为之前接触过Python,加上笔者只是想写一个给自己的App调用的API,所以最后选择了Python这门对初学者非常友好的编程语言。 笔者花了一周多的时间把Python的基本语法研究了一遍,发现Python语法简单、代码简洁。正当笔者准备去看Flask这个轻量级Python Web框架的文档时,问题来了:没有数据源。数据源都没有,写什么API?于是,笔者把学习重心转移到Python爬虫编写上。 这仿佛打开了新的大门,简单的几行代码就完成了站点模拟请求、页面解析,还把图片下载到了本地。接下来,笔者又开始研究如何提高爬取效率、解析效率,以及采用多样化的数据存储形式。后来发现有些站点有反爬虫的策略,得不到数据,于是笔者又对此进行研究。爬虫学得差不多了,笔者又开始研究数据分析,分析爬取的结果,得出一些有用的结论,如分析招聘网站上某个工作岗位的行情等。 笔者相信掌握Python爬虫,会为你的工作、生活…