Python网络爬虫从入门到实践(第2版)
唐松
前言
近年来,大数据成为业界与学术界的热门话题之一,数据已经成为每个公司极为重要的资产。互联网上大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量,而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。
执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术。因此,本书除了面向技术人员外,还面向不懂编程的“小白”,希望能够将网络爬虫学习的门槛降低,让大家都能享受到使用网络爬虫编程的乐趣。过去的一年中,本书第1版帮助很多读者开启了Python和网络爬虫的世界,因此有幸获得出版社的邀请,在之前版本的基础上进行修改,更新书中的案例以及添加新的内容,形成第2版。
本书所有代码均在Python 3.6中测试通过,并存放在Github和百度网盘上:Github链接为https://github.com/Santostang/PythonScraping;百度网盘链接为https://pan.baidu.com/s/14RA8Srew8tbqVT977JDvNw,提取码为h2kf。为了方便大家练习Python网络爬虫,我专门搭建了一个博客网站用于Python网络爬虫的教学,本书的教学部分全部基于爬取我的个人博客网(www.santostang.com (http://www.santostang.com))。一方面,由于这个网站不会更改设计和框架,因此本书的网络爬虫代码可以一直使用;另一方面,由于这是我自己的博客网站,因此可以避免一些法律上的风险。
读者对象
(1)对Python编程和网络爬虫感兴趣的大专院校师生,需要获取数据进行分析;
(2)打算转行或入行爬虫工程师、数据分析师、数据科学家的人士;
(3)需要使用网络爬虫技术自动获取数据分析的各行业人士。
勘误和支持
由于作者水平和能力有…