爬虫简介
- 什么是爬虫
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 - 爬虫的价值
爬取的数据
爬虫合法性探究
- 在法律中不被禁止
- 具有违法风险
爬虫初探
- 爬虫在使用场景中的分类
- 通用爬虫:抓取系统重要组成部分,抓取一整张页面数据
- 聚焦爬虫:建立在通用爬虫基础之上,抓取的是页面中特定的局部内容
- 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
- 爬虫的矛与盾
- 反爬机制
门户网站,可以通过制定相关的策略或者技术手段,防止爬虫程序进行网站数据的爬取 - 反反爬策略
破解门户网站的反爬机制,从而获取门户网站信息 - robots.txt 协议:
君子协议:规定了网站中的哪些数据可以被爬虫爬取哪些数据不可以被爬取
http 和 https 协议
- http 协议
就是服务器和客户端进行数据交互的一种形式。