
Python网络爬虫技术与实践
加载中,请稍候……
作品简介
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。
本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
吕云翔等编著
作品目录
面向新工科高等院校大数据专业系列教材编委会成员名单
出版说明
前言
基础篇
第1章 Python基础及网络爬虫
1.1 了解Python语言
1.2 配置安装Python开发环境
1.3 Python基本语法介绍
1.4 互联网、HTTP与HTML
1.5 Hello, Spider!
1.6 分析网站
1.7 本章小结
1.8 实践:Python环境的配置与爬虫的运行
1.9 习题
第2章 数据采集与预处理
2.1 数据
2.2 数据分析过程
2.3 数据采集
2.4 数据清洗
2.5 数据集成
2.6 数据转换
2.7 数据脱敏
2.8 本章小结
2.9 实践:使用Python尝试数据的清洗
2.10 习题
第3章 静态网页采集
3.1 从采集开始
3.2 正则表达式
3.3 BeautifulSoup爬虫
3.4 XPath与lxml
3.5 遍历页面
3.6 使用API
3.7 本章小结
3.8 实践:哔哩哔哩直播间信息爬取练习
3.9 习题
第4章 数据存储
4.1 Python中的文件
4.2 Python中的字符串
4.3 Python中的图片
4.4 CSV
4.5 数据库的使用
4.6 其他类型的文档
4.7 本章小结
4.8 实践:使用Python 3读写SQLite数据库
4.9 习题
进阶篇
第5章 JavaScript与动态内容
5.1 JavaScript与AJAX技术
5.2 抓取AJAX数据
5.3 抓取动态内容
5.4 本章小结
5.5 实践:爬取机械工业出版社新书上架信息
5.6 习题
第6章 模拟登录与验证码
6.1 表单
6.2 Cookie
6.3 模拟登录网站
6.4 验证码
6.5 本章小结
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
6.7 习题
第7章 爬虫数据的分析与处理
7.1 Python与文本分析
7.2 数据处理与科学计算
7.3 本章小结
7.4 实践:中国每年大学招生人数变化的可视化
7.5 习题
提高篇
第8章 爬虫的灵活性和多样性
8.1 爬虫的灵活性——以微信数据抓取为例
8.2 爬虫的多样性
8.3 爬虫的部署和管理
8.4 本章小结
8.5 实践:基于PyQuery爬取菜鸟教程
8.6 习题
第9章 Selenium模拟浏览器与网站测试
9.1 测试
9.2 Python的单元测试
9.3 使用Python爬虫测试网站
9.4 使用Selenium测试
9.5 本章小结
9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
9.7 习题
第10章 爬虫框架Scrapy与反爬虫
10.1 爬虫框架
10.2 网站反爬虫
10.3 本章小结
10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
10.5 习题
实战篇
第11章 实战:根据关键词爬取新闻
11.1 利用Web Scraper工具
11.2 利用Selenium和XPath技术
11.3 本章小结
第12章 实战:爬取科研文献信息
12.1 科研文献数据爬取
12.2 本章小结
第13章 实战:蒸汽平台游戏数据爬取
13.1 爬取蒸汽平台上最受好评的前100个游戏信息
13.2 本章小结
第14章 实战:Scrapy框架爬取股票信息
14.1 任务介绍
14.2 Scrapy项目实战
14.3 本章小结
参考文献