blog小窝

Home 学习分享安全兴趣日常

2022-01-26

爬虫

爬虫简介

什么是爬虫
通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程
爬虫的价值
爬取的数据

爬虫合法性探究

在法律中不被禁止
具有违法风险

爬虫初探

爬虫在使用场景中的分类

通用爬虫：抓取系统重要组成部分，抓取一整张页面数据
聚焦爬虫：建立在通用爬虫基础之上，抓取的是页面中特定的局部内容
增量式爬虫：检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据

爬虫的矛与盾

反爬机制
门户网站，可以通过制定相关的策略或者技术手段，防止爬虫程序进行网站数据的爬取
反反爬策略
破解门户网站的反爬机制，从而获取门户网站信息
robots.txt 协议：
君子协议：规定了网站中的哪些数据可以被爬虫爬取哪些数据不可以被爬取

http 和 https 协议

http 协议
就是服务器和客户端进行数据交互的一种形式。

Share

Web安全深度剖析

Categories

web安全54
- CTF3
- 书籍1
- 实战6
- 工具10
- 思维导图1
- 渗透测试10
- 漏洞19
- 面试题4
前端学习1
区块链安全1
- 博弈论1
学习分享17
密码学1
杂记1

Archives

March 20251
April 20241
December 20232
October 20234
May 20234
April 20232
March 20233
February 202310
January 202312
December 20228
November 20226
October 20225
September 20221
August 20222
July 20223
June 20221
May 20221
April 20222
March 20221
January 20222
September 20211
July 20212
April 20211
March 20211
December 20011

Recent Posts

vulnhub靶机学习记录
Web常见漏洞
POC编写总结
Apache Kafka CVE-2023-25194 JNDI注入漏洞环境搭建+浅析
log4j2原理分析+漏洞复现和利用

访问量次 | 访客人 |

© 2025 草莓布丁
Powered by Hexo

Home 学习分享安全兴趣日常