Python网络爬虫技术与实践

Python网络爬虫技术与实践

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
¥49.00¥44.10
读书日大促-满减折上折截止至:2025-04-24 00:00:00了解详情
世界在书里,书在你手中|电子书4折满减每满 100 减 60活动详情
加载中,请稍候……

作品简介

本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。

本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。

吕云翔等编著

作品目录

  1. 面向新工科高等院校大数据专业系列教材编委会成员名单
  2. 出版说明
  3. 前言
  4. 基础篇
  5. 第1章 Python基础及网络爬虫
  6. 1.1 了解Python语言
  7. 1.2 配置安装Python开发环境
  8. 1.3 Python基本语法介绍
  9. 1.4 互联网、HTTP与HTML
  10. 1.5 Hello, Spider!
  11. 1.6 分析网站
  12. 1.7 本章小结
  13. 1.8 实践:Python环境的配置与爬虫的运行
  14. 1.9 习题
  15. 第2章 数据采集与预处理
  16. 2.1 数据
  17. 2.2 数据分析过程
  18. 2.3 数据采集
  19. 2.4 数据清洗
  20. 2.5 数据集成
  21. 2.6 数据转换
  22. 2.7 数据脱敏
  23. 2.8 本章小结
  24. 2.9 实践:使用Python尝试数据的清洗
  25. 2.10 习题
  26. 第3章 静态网页采集
  27. 3.1 从采集开始
  28. 3.2 正则表达式
  29. 3.3 BeautifulSoup爬虫
  30. 3.4 XPath与lxml
  31. 3.5 遍历页面
  32. 3.6 使用API
  33. 3.7 本章小结
  34. 3.8 实践:哔哩哔哩直播间信息爬取练习
  35. 3.9 习题
  36. 第4章 数据存储
  37. 4.1 Python中的文件
  38. 4.2 Python中的字符串
  39. 4.3 Python中的图片
  40. 4.4 CSV
  41. 4.5 数据库的使用
  42. 4.6 其他类型的文档
  43. 4.7 本章小结
  44. 4.8 实践:使用Python 3读写SQLite数据库
  45. 4.9 习题
  46. 进阶篇
  47. 第5章 JavaScript与动态内容
  48. 5.1 JavaScript与AJAX技术
  49. 5.2 抓取AJAX数据
  50. 5.3 抓取动态内容
  51. 5.4 本章小结
  52. 5.5 实践:爬取机械工业出版社新书上架信息
  53. 5.6 习题
  54. 第6章 模拟登录与验证码
  55. 6.1 表单
  56. 6.2 Cookie
  57. 6.3 模拟登录网站
  58. 6.4 验证码
  59. 6.5 本章小结
  60. 6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
  61. 6.7 习题
  62. 第7章 爬虫数据的分析与处理
  63. 7.1 Python与文本分析
  64. 7.2 数据处理与科学计算
  65. 7.3 本章小结
  66. 7.4 实践:中国每年大学招生人数变化的可视化
  67. 7.5 习题
  68. 提高篇
  69. 第8章 爬虫的灵活性和多样性
  70. 8.1 爬虫的灵活性——以微信数据抓取为例
  71. 8.2 爬虫的多样性
  72. 8.3 爬虫的部署和管理
  73. 8.4 本章小结
  74. 8.5 实践:基于PyQuery爬取菜鸟教程
  75. 8.6 习题
  76. 第9章 Selenium模拟浏览器与网站测试
  77. 9.1 测试
  78. 9.2 Python的单元测试
  79. 9.3 使用Python爬虫测试网站
  80. 9.4 使用Selenium测试
  81. 9.5 本章小结
  82. 9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
  83. 9.7 习题
  84. 第10章 爬虫框架Scrapy与反爬虫
  85. 10.1 爬虫框架
  86. 10.2 网站反爬虫
  87. 10.3 本章小结
  88. 10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
  89. 10.5 习题
  90. 实战篇
  91. 第11章 实战:根据关键词爬取新闻
  92. 11.1 利用Web Scraper工具
  93. 11.2 利用Selenium和XPath技术
  94. 11.3 本章小结
  95. 第12章 实战:爬取科研文献信息
  96. 12.1 科研文献数据爬取
  97. 12.2 本章小结
  98. 第13章 实战:蒸汽平台游戏数据爬取
  99. 13.1 爬取蒸汽平台上最受好评的前100个游戏信息
  100. 13.2 本章小结
  101. 第14章 实战:Scrapy框架爬取股票信息
  102. 14.1 任务介绍
  103. 14.2 Scrapy项目实战
  104. 14.3 本章小结
  105. 参考文献