爬虫


2022-03-21

[编程技术] 为什么网站知道我的爬虫使用了代理?

经常有朋友问:为什么自己的爬虫明明设置了代理,但一访问网站就能被发现。我总结了几种常见的情况。 实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要使用 AI 识别用户行为。下面这几

2022-03-19

[编程技术] 为了了解女朋友的小心思,我用 python 爬了榜姐微博下 70000 个女生小秘密!

震惊!某程序员竟通过技术手段掌握 70000 个女生小秘密,然后做出… 常被叫做直男的你,是不是经常困惑于女生的那些小心思,对女生不甚了解? 微博榜姐曾经搞过一个话题, “女生哪些小秘密,是很多男生不知道

2022-01-25

[编程技术] 反爬虫的极致手段,几行代码直接炸了爬虫服务器

作为一个站长,你是不是对爬虫不胜其烦?爬虫天天来爬,速度又快,频率又高,服务器的大量资源被白白浪费。 看这篇文章的你有福了,我们今天一起来报复一下爬虫,直接把爬虫的服务器给干死机。 本文有一个前提:你已经

2022-01-14

[极限操作] 核弹级教程:手把手教你白嫖上百个订阅节点

名词解释 爱折腾的小伙伴,对节点、Clash、Surge 之类的词都再熟悉不过了吧? 梯子的工具随手可见,但是节点——如果不(yi)想(mao)破(bu)费(ba)的话——找起来并不是那么顺利。 因为大部分的

2021-06-08

[编程技术] Nginx常用屏蔽规则,让网站更安全

前言 Nginx (engine x) 是一个高性能的 HTTP 和反向代理服务,目前很大一部分网站均使用了 Nginx 作为 WEB 服务器,Nginx 虽然非常强大,但默认情况下并不能阻挡恶意访问,这里有一份常用的 Nginx 屏蔽规则,希望对你有所帮助。 在开始之前,希

2021-05-14

[编程技术] 三行代码捅穿 CloudFlare 的五秒盾

经常写爬虫的同学,肯定知道 CloudFlare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字: Checking your browser before accessing xxx. This process is automatic. Your browser will redirect to your requested content shortly. Please allow up to 5 seconds… 即使你把 Headers 带完整,使用代理 IP,也会

×