2022-03-21
经常有朋友问:为什么自己的爬虫明明设置了代理,但一访问网站就能被发现。我总结了几种常见的情况。 实际上,网站要识别你是否使用了代理,并不一定非要什么高深的反爬虫机制,也不需要使用 AI 识别用户行为。下面这几
2022-03-19
震惊!某程序员竟通过技术手段掌握 70000 个女生小秘密,然后做出… 常被叫做直男的你,是不是经常困惑于女生的那些小心思,对女生不甚了解? 微博榜姐曾经搞过一个话题, “女生哪些小秘密,是很多男生不知道
2021-05-14
经常写爬虫的同学,肯定知道 CloudFlare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字: Checking your browser before accessing xxx. This process is automatic. Your browser will redirect to your requested content shortly. Please allow up to 5 seconds… 即使你把 Headers 带完整,使用代理 IP,也会
2021-04-01
使用 Python 通过 Gmail 发送邮件报错解决过程 一、报错内容 smtplib.SMTPAuthenticationError: (534, b’5.7.14 <https://accounts.google.com/signin/continue?sarp=1&scc=1&plt=AKgnsbtN\n5.7.14 Qa-eKvu51HQgA471suwlc_V0Xf67BvY4B9Z0BZou-0n-m6x22GNr4EKm9MgkIsa-5zzTpt\n5.7.14 R3sPckC-qgZV4_yqbp7YPiuHVy8I4NNU8JmUP98aaPp-ZR_5S-5LMsQbjgUPaq> Please\n5.7.14 log in via your web browser and then try again.\n5.7.14 Learn more at\n5.7.14 https://support.google.com/mail/answer/78754 o20sm12868828pfp.16 - gsmtp’) 二、尝试解决 因为谷歌默认不允许通过不安全的应用访问 Gmail 等服务,可以去 “我
2020-11-18
背景 最近有个需求,有多个库,每个库中有一张相同表名的表需要实时同步到另一个服务器上的 Mysql,本想自己 python 写一个脚本去处理,就这么巧,正好看到了阿里巴巴开源的 Canal,刚刚好他又满足需求,那就勉为其
2020-11-18
这是个啥? 在 Python 中,一般情况下我们可能直接用自带的 logging 模块来记录日志,包括我之前的时候也是一样。在使用时我们需要配置一些 Handler、Formatter 来进行一些处理,比如把日志输出到不同的位置,或者设