Python爬虫开发 从入门到实战(微课版)

谢乾坤
内容提要 本书较为全面地介绍了定向爬虫的开发过程、各种反爬虫机制的破解方法和爬虫开发的相关技巧。全书共13章,包括绪论、Python基础、正则表达式与文件操作、简单的网页爬虫开发、高性能HTML内容解析、Python与数据库、异步加载与请求头、模拟登录与验证码、抓包与中间人爬虫、Android原生App爬虫、Scrapy、Scrapy高级应用、爬虫开发中的法律和道德问题等。除第1、12、13章外的其他章末尾都有动手实践,以帮助读者巩固本章和前面章节所学的内容。针对书中的疑难内容,还配有视频讲解,以便更好地演示相关操作。 本书适合作为高校计算机类专业的教材,也适合作为网络爬虫技术爱好者的自学参考书。 前言 我在上大学的时候开始学习Python,使用Python做的第一个项目就是学校教务处爬虫,用来爬取教务处的各种通知并导入到微信公众号中。在对爬虫开发比较熟练以后,我在淘宝上开了一个店铺用来承接各种爬虫的私活。我的店铺是淘宝上面第一个爬虫开发的店铺。 在我工作以后,极客学院联系我,让我作为布道师在极客学院上讲授爬虫开发的课程。这些课程就是本书内容的前身。 本书适用于有一定编程基础的读者。虽然第2章讲解了Python 3的基础知识,但是由于Python博大精深,为了覆盖爬虫开发中的各种知识,所以自然需要省略一些细节上的内容。因此,如果读者有一定的编程基础与开发常识,那么阅读本书将会事半功倍。 本书提供了练习网站,其地址为http://exercise.kingname.info/。建议读者在学习本书的时候,根据书上的提示使用练习网站来练习爬虫的开发。这样做的好处有三点:其一,练习网站针对每一章开发,专门用于练习这一章的对应知识点,读者在开发爬虫的时候不用考虑其他的干扰因素。其二,定向爬虫对网站的改版较为敏感,因此,在使用第三方网站做例子的时候,一旦网站出现了改版,如果读者照…