Python 爬虫进阶必备 | 某菠菜网站请求验证码 data 参数加密逻辑分析
今日网站
这个网站同样来自群友投稿
aHR0cDovL ViMy5pZ3V aS5jb20vIy8=
需要分析的是刷新验证码提交的 data 参数
![](https://filescdn.proginn.com/b1d6510f3b76c5c75daa4e5af3400094/f1b9512daafc478e3d974d2fce61d614.webp)
加密定位
先搜索 data 参数,结果里检索的到 200+ 的匹配项,所以暂时跳过这种定位方式
![](https://filescdn.proginn.com/63a104b57e4ccd78c8ebd374983eeeb1/cd24dbe89c5815a58cd77e044a8c9da4.webp)
不过这个页面的请求是 xhr 请求,所以还是用老方法 xhr 断点看看
![](https://filescdn.proginn.com/ca3598ab28b548f593405d2f389ce51a/02995fc03664a5ca3e565e5f3ab6513e.webp)
打上断点之后重新刷新页面
![](https://filescdn.proginn.com/1e93fb0147b2635f23cfa24cd58891fd/9b4d80d38ba80429c982466ad0770391.webp)
断点是断在y.send
的位置,这个是请求发出的地方,网上看堆栈可以看到堆栈里大多都是angular.js
相关的内容
“Angular 是一款十分流行且好用的 Web 前端框架,目前由 Google 维护
既然是框架内容,先暂时不看继续向上看,可以看到下面几个需要注意的堆栈
![](https://filescdn.proginn.com/3723080f3a56f58017bc204ed2f39a26/ae40f7aa59de30c5f39a68c0b4b3993d.webp)
这里有好几个vm
,点击eval
对应的堆栈点进去可以看到下面这样的代码
![](https://filescdn.proginn.com/72b7b8f01012be4e7537909815715baa/8f07369cb2bce6e8696898843eebf567.webp)
虽然这样里的代码经过了混淆,不过还是可以通过关键字,分析出这里是一个post
请求构造的代码
1 的位置可以看出这是一个 post 方法
2 的位置是构建参数 packet
3 的位置可以看出是完成上面packet
参数提交并完成请求提交,回调的地方
分析到这,打上断点重新刷新看看
![](https://filescdn.proginn.com/73e23860c12cbed29d05b5b10a0daa60/b25878a262af048b63cec8945b9b4aad.webp)
url 不是验证码请求的链接就放过
ps:其他请求可能也会走这个接口,为了准确性我们只分析需要的链接
![](https://filescdn.proginn.com/f22e314a3c573bb571c9a16d7fa700af/cdad9fe890629b383e2bfb12e8458391.webp)
直到这个位置的 url 显示的是我们需要的链接
![](https://filescdn.proginn.com/cc77d91886a2dd8eb32f16ac5bc009be/cbaf75d4a6729a479b75510cf9a1677f.webp)
可以看到这里的参数 packet 是下面这样的
![](https://filescdn.proginn.com/2c9b9a1e78b906de034f72f6b28b1b9e/870ed788fb66e6a8d900b35b471b718d.webp)
经过cp
之后,经过几层逻辑
传到下面的结果和前面分析的请求提交的是类似的
![](https://filescdn.proginn.com/97fe011834615a80ef1d4967d5f9fe1a/0f030b5268018dd2860a950642db50cf.webp)
![](https://filescdn.proginn.com/ed9777ecccf82c6402b05121db58d6b8/41f4661c05c4414896c10f274f9baf83.webp)
这样我们就找到了加密的位置了。
加密分析
根据上面的操作找到加密的位置了,就继续放过全部断点重新进一次加密逻辑
这次要跟一次逻辑,看看经过 cp
之后都经过了什么操作,全部抠出来就完事了
先看cp
cp
这个方法里先做了一次判断,进到JSON.stringify
![](https://filescdn.proginn.com/0c75871654f4a2b032ae0c2531c4fa0b/f637cdbe5c806d96f189399a30372bf8.webp)
之后传入到下面的逻辑中
lz[_$_480d[1704]](data_to_cp, 3, on_finish, on_progress)
![](https://filescdn.proginn.com/d44546db825eb2cf7d0b26a46260c065/49bf9dbfaeaf5916deca6f10a710b294.webp)
这里的lz[_$_480d[1704]]
是yt
函数,经过yt
函数之后得到的结果是bit array
之后又进入到bth
这个方法中
![](https://filescdn.proginn.com/4bed7a01eec969671d99754cd9518732/8cece36f463565f187e058de8670ac5a.webp)
得到bth
的结果后,将这个结果hash
然后将hash
的结果与原结果拼接
var data = hex + md5(hex)
这样我们就要扣出yt
与bth
即可,得出运行的结果如下
![](https://filescdn.proginn.com/168e39ae7f92d0db7ad850ba333b896d/f62c52aaa8c4b41f0b9676eca2fbbd19.webp)
好了,今天的文章就到这里了,咱们下次再会~
对了,看完记得一键四连,这个对我真的很重要。