爬虫

爬虫简介

  1. 什么是爬虫
    通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
  2. 爬虫的价值
    爬取的数据

爬虫合法性探究

  • 在法律中不被禁止
  • 具有违法风险

爬虫初探

  1. 爬虫在使用场景中的分类
  • 通用爬虫:抓取系统重要组成部分,抓取一整张页面数据
  • 聚焦爬虫:建立在通用爬虫基础之上,抓取的是页面中特定的局部内容
  • 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
  1. 爬虫的矛与盾
  • 反爬机制
    门户网站,可以通过制定相关的策略或者技术手段,防止爬虫程序进行网站数据的爬取
  • 反反爬策略
    破解门户网站的反爬机制,从而获取门户网站信息
  • robots.txt 协议:
    君子协议:规定了网站中的哪些数据可以被爬虫爬取哪些数据不可以被爬取

http 和 https 协议

  1. http 协议
    就是服务器和客户端进行数据交互的一种形式。
访问量 访客