由于GFW的原因,随时都可能被墙,所以当你看到这个文章的时候,我不保证你可以正常访问。下面正文开始。

https://tellme.pw/avmoo 可获得最新地址

爬虫项目破产,官方修改了电影id的策略,没法爬了,已经把现有数据做了共享,自行去github下载。


功能

爬虫:

  1. 顺序抓取影片
  2. 增量抓取,-auto参数自动识别最新id
  3. 可设置代理,也可以使用mousehole
  4. 周期重试

本地web:

  1. avmoo仿站
  2. 支持多关键字搜索(正版不支持)
  3. 实现了各维度收藏功能
  4. 收藏影片,收藏系列,已发布等关键字可用于搜索
  5. 实现了简易缓存
  6. 除了图片资源,不需要网络

存储

主要表结构是这一个,还有一些其他的,用于错误重试还有收藏等,具体去github看吧

CREATE TABLE "av_list" (
"id"  INTEGER,
"linkid"  TEXT(10) NOT NULL,
"title"  TEXT(500),
"av_id"  TEXT(50),
"release_date"  TEXT(20),
"len"  TEXT(20),
"director"  TEXT(100),
"studio"  TEXT(100),
"label"  TEXT(100),
"series"  TEXT(200),
"genre"  TEXT(200),
"stars"  TEXT(300),
"director_url"  TEXT(10),
"studio_url"  TEXT(10),
"label_url"  TEXT(10),
"series_url"  TEXT(10),
"stars_url"  TEXT(300),
"bigimage"  TEXT(200),
"image_len"  INTEGER,
PRIMARY KEY ("linkid" ASC)
);

完整代码

https://github.com/moozik/avmopw-spider
建议你从半路开始爬,比如爬15年之后的,因为再早的资源很难找,我之前在网络条件很差的情况下(天津长城宽带,丧心病狂缓存页面)爬了好多天,才把从0000开始所有的数据爬完了,后来发现年代太久远,只剩下考古的意义了。

整个站抓下来,sqlite的大小应该是100mb左右--20170427
整个站抓下来,sqlite的大小应该是不到300mb--20190610

最后修改:2019 年 10 月 15 日 01 : 42 AM