moozik

从javzoo.com抓取av番号的爬虫
由于GFW的原因,随时都可能被墙,所以当你看到这个文章的时候,我不保证你可以正常访问。下面正文开始。从https:...
扫描右侧二维码阅读全文
24
2016/10

从javzoo.com抓取av番号的爬虫

由于GFW的原因,随时都可能被墙,所以当你看到这个文章的时候,我不保证你可以正常访问。下面正文开始。

https://tellme.pw/avmoo 可获得最新地址


功能

爬虫:

  1. 顺序抓取影片
  2. 增量抓取,-auto参数自动识别最新id
  3. 可设置代理,也可以使用mousehole
  4. 周期重试

本地web:

  1. avmoo仿站
  2. 支持多关键字搜索(正版不支持)
  3. 实现了各维度收藏功能
  4. 收藏影片,收藏系列,已发布等关键字可用于搜索
  5. 实现了简易缓存
  6. 除了图片资源,不需要网络

存储

主要表结构是这一个,还有一些其他的,用于错误重试还有收藏等,具体去github看吧

CREATE TABLE "av_list" (
"id"  INTEGER,
"linkid"  TEXT(10) NOT NULL,
"title"  TEXT(500),
"av_id"  TEXT(50),
"release_date"  TEXT(20),
"len"  TEXT(20),
"director"  TEXT(100),
"studio"  TEXT(100),
"label"  TEXT(100),
"series"  TEXT(200),
"genre"  TEXT(200),
"stars"  TEXT(300),
"director_url"  TEXT(10),
"studio_url"  TEXT(10),
"label_url"  TEXT(10),
"series_url"  TEXT(10),
"stars_url"  TEXT(300),
"bigimage"  TEXT(200),
"image_len"  INTEGER,
PRIMARY KEY ("linkid" ASC)
);

完整代码

https://github.com/moozik/avmopw-spider
建议你从半路开始爬,比如爬15年之后的,因为再早的资源很难找,我之前在网络条件很差的情况下(天津长城宽带,丧心病狂缓存页面)爬了好多天,才把从0000开始所有的数据爬完了,后来发现年代太久远,只剩下考古的意义了。

整个站抓下来,sqlite的大小应该是100mb左右--20170427
整个站抓下来,sqlite的大小应该是不到300mb--20190610

最后修改:2019 年 06 月 10 日 03 : 34 PM

13 条评论

  1. moozik

    发现可以直连访问了,数据抓一下

  2. Geekerstar

    666,来顶一下

    1. moozik
      @Geekerstar

      谢老铁捧场了,抱拳了

  3. ZX7

    请问如何设置代理服务器? 我爬了一会儿就403了, 刚刚学.

    1. moozik
      @ZX7

      你在代码里搜索proxies就找到相关代码了,用-p参数设置代理服务器,好久没抓了,找不到好用的梯子

      1. zx7
        @moozik

        你好, 请问我这样用 speed.py -i -s 28d4 -e zzzz -p https://139.255.57.32:8080 , 这是使用上面这个代理服务器吗?
        为什么我没开SSR用上面的代码 直接显示request.error , 用了SSR就可以爬.但是不久就会出现403.
        上面的代码究竟是使用我的SSR来访问, 还是上面的免费代理服务器呢?
        PS: 大一学生,什么都不懂......

        1. moozik
          @zx7

          没开ssr出现的错误是请求错误,当然是必须开开才行。403错误是经常会有的,出现403就等着重试就行了,有个重试表,没请求到的都在里面

  4. zz

    这个网站现在怎么上不去了 翻墙也不行

    1. 啊哈哈
      @zz

      说实话真的很感谢你们这样的大佬谢谢

    2. moozik
      @zz

      不可能啊,翻墙肯定可以上的

      1. 寒风
        @moozik

        现在真的不能上了,如果能上请告诉我方法OωO

        1. moozik
          @寒风

          那当然是自己搭梯子上了,ss就不错,vpn不是都被查了吗

  5. 游客

    66666666

发表评论