Python 3反爬虫原理与绕过实战

Python 3反爬虫原理与绕过实战

图灵原创

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
4.351 评价豆瓣读书

作品简介

本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,最后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点。

韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区优秀作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技,

作品目录

  1. 前言
  2. 阅读建议
  3. 本书内容
  4. 致谢
  5. 免责声明
  6. 相关资源
  7. 第 1 章 开发环境配置
  8. 1.1 操作系统的选择
  9. 1.2 练习平台 Steamboat
  10. 1.3 第三方库的安装
  11. 1.4 常用软件的安装
  12. 1.5 深度学习环境配置
  13. 1.6 Node.js 环境配置
  14. 第 2 章 Web网站的构成和页面渲染
  15. 2.1 nginx服务器
  16. 2.2 浏览器
  17. 2.3 网络协议
  18. 本章总结
  19. 第 3 章 爬虫与反爬虫
  20. 3.1 动态网页与网页源代码
  21. 3.2 爬虫知识回顾
  22. 3.3 反爬虫的概念与定义
  23. 本章总结
  24. 第 4 章 信息校验型反爬虫
  25. 4.1 User-Agent 反爬虫
  26. 4.2 Cookie 反爬虫
  27. 4.3 签名验证反爬虫
  28. 4.4 WebSocket 握手验证反爬虫
  29. 4.5 WebSocket 消息校验反爬虫
  30. 4.6 WebSocket Ping反爬虫
  31. 本章总结
  32. 第 5 章 动态渲染反爬虫
  33. 5.1 常见的动态渲染反爬虫案例
  34. 5.2 动态渲染的通用解决办法
  35. 本章总结
  36. 第 6 章 文本混淆反爬虫
  37. 6.1 图片伪装反爬虫
  38. 6.2 CSS 偏移反爬虫
  39. 6.3 SVG 映射反爬虫
  40. 6.4 字体反爬虫
  41. 6.5 文本混淆反爬虫通用解决办法
  42. 本章总结
  43. 第 7 章 特征识别反爬虫
  44. 7.1 WebDriver 识别
  45. 7.2 浏览器特征
  46. 7.3 爬虫特征
  47. 7.4 隐藏链接反爬虫
  48. 本章总结
  49. 第 8 章 App反爬虫
  50. 8.1 App 抓包
  51. 8.2 APK文件反编译
  52. 8.3 代码混淆反爬虫
  53. 8.4 App 应用加固知识扩展
  54. 8.5 了解应用程序自动化测试工具
  55. 本章总结
  56. 第 9 章 验证码
  57. 9.1 字符验证码
  58. 9.2 计算型验证码
  59. 9.3 滑动验证码
  60. 9.4 滑动拼图验证码
  61. 9.5 文字点选验证码
  62. 9.6 鼠标轨迹的检测和原理
  63. 9.7 验证码产品赏析
  64. 本章总结
  65. 第 10 章 综合知识
  66. 10.1 编码与加密
  67. 10.2 JavaScript 代码混淆
  68. 10.3 前端禁止事件
  69. 10.4 法律法规
  70. 本章总结
  71. 作者简介
  72. 看完了
载入中