花了一天时间,写了一个采集器

  • 花了一天时间,写了一个采集器已关闭评论
  • 1,324 views
  • A+
所属分类:日常折腾

这几天其实很忙。本来是忙着将一个网站的数据全部转换到另一个网站上。不是那种直接换个程序,数据库导进来那种。而是文章要全部手动发布。部分细节的东西有本质的区别。

我已经连续忙碌了一周了。做得好好的。昨天突然发现一个美女图片站。是收费的那一种。程序是用的wordpress。我突然就来了心血,想把资源扒下来,我自己也做个类似的站点。

对于获取这类网站的vip会员,我是有一点心得的。之前用社工库撞密码,获得过好几个dz论坛的高级VIP。只是这次困难了一点。因为wordpress它的会员系统在前台是看不到的。不像dz那样基本上游客都能访问到用户名。

所幸,我实力带点运气,撞上了一个。不过,也花了不少时间。起码两三个小时是有吧。我在评论里找用户名,撞上两个,但一个只是充值了几十块,不是vip,没什么用。又继续,这下撞上了一年的vip,网站上价格是200元呢(等于我又赚了200块)。所有的权限都有。

但问题又来了!这个破网站,看上去不昨的,卡卡的,估计是国外服务器质量堪忧。但站长选的模板还是很有反爬虫意识的(可能是巧合吧,我不认为这个站长有这个觉悟),用的js加载页面(而且是post方式提交参数才能显示),使用查看源代码的方式只能查看第一页。用火车头采集器也无能无力。

更有一个问题是:他的资源全部在百度网盘上,使用了链接加密的付费插件叫:Erphpdown,这东西把百度网盘链接变为了网站本身加密链接。又需要VIP权限通过post提交才能返回直接的“http://pan.baidu.com/xxx“这样的直链。

总之。面对这样的网站。一向百试百爽的火车头采集器爱莫能助了。我只能使用易语言来自己写一个采集器了。

昨天晚上写代码到半夜12点,搞定了八成左右。今天早上,又花了大概2个小时。成品就做出来了。

使用社工出来的VIP账号和密码登录上网站。获取cookie,然后采集每个分类下的文章列表。再一一获取每一页的信息。重要的是post直接解析出了百度网盘链接和密码,这才是我的真正目的。

到写本文为止。我已经将此网站上所有的数据基本上扒完了。全部保存到了本地。以后有兴趣做站时,再来慢慢整理百度网盘的资源吧。

采集器成品如图:
花了一天时间,写了一个采集器图片 No.1

花了一天时间,写了一个采集器图片 No.2

下面是每一篇文章都保存为一个html文件,直接在浏览器打开,显示如下图:

花了一天时间,写了一个采集器图片 No.3

avatar