由于GFW的原因,随时都可能被墙,所以当你看到这个文章的时候,我不保证你可以正常访问。下面正文开始。
从https://tellme.pw/avmoo 可获得最新地址
爬虫项目破产,官方修改了电影id的策略,没法爬了,已经把现有数据做了共享,自行去github下载。
功能
爬虫:
- 顺序抓取影片
- 增量抓取,
-auto
参数自动识别最新id - 可设置代理,也可以使用mousehole
- 周期重试
本地web:
- avmoo仿站
- 支持多关键字搜索(正版不支持)
- 实现了各维度收藏功能
收藏影片
,收藏系列
,已发布
等关键字可用于搜索- 实现了简易缓存
- 除了图片资源,不需要网络
存储
主要表结构是这一个,还有一些其他的,用于错误重试还有收藏等,具体去github看吧
CREATE TABLE "av_list" (
"id" INTEGER,
"linkid" TEXT(10) NOT NULL,
"title" TEXT(500),
"av_id" TEXT(50),
"release_date" TEXT(20),
"len" TEXT(20),
"director" TEXT(100),
"studio" TEXT(100),
"label" TEXT(100),
"series" TEXT(200),
"genre" TEXT(200),
"stars" TEXT(300),
"director_url" TEXT(10),
"studio_url" TEXT(10),
"label_url" TEXT(10),
"series_url" TEXT(10),
"stars_url" TEXT(300),
"bigimage" TEXT(200),
"image_len" INTEGER,
PRIMARY KEY ("linkid" ASC)
);
完整代码
https://github.com/moozik/avmopw-spider
建议你从半路开始爬,比如爬15年之后的,因为再早的资源很难找,我之前在网络条件很差的情况下(天津长城宽带,丧心病狂缓存页面)爬了好多天,才把从0000开始所有的数据爬完了,后来发现年代太久远,只剩下考古的意义了。
整个站抓下来,sqlite的大小应该是100mb左右--20170427
整个站抓下来,sqlite的大小应该是不到300mb--20190610
19 条评论
身为一个完全不懂前端的,很好奇怎么把别人的网站直接复制下来..能否给点提示..
chrome,ctrl + s,保存类型:网页全部,存个地方,网页就下来了。你可以搜一下整站下载器,就这个原理
非常感谢
老司机带带我
这个项目已经破产了,github有已存的全部数据
发现可以直连访问了,数据抓一下
666,来顶一下
谢老铁捧场了,抱拳了
请问如何设置代理服务器? 我爬了一会儿就403了, 刚刚学.
你在代码里搜索proxies就找到相关代码了,用-p参数设置代理服务器,好久没抓了,找不到好用的梯子
你好, 请问我这样用 speed.py -i -s 28d4 -e zzzz -p https://139.255.57.32:8080 , 这是使用上面这个代理服务器吗?
为什么我没开SSR用上面的代码 直接显示request.error , 用了SSR就可以爬.但是不久就会出现403.
上面的代码究竟是使用我的SSR来访问, 还是上面的免费代理服务器呢?
PS: 大一学生,什么都不懂......
没开ssr出现的错误是请求错误,当然是必须开开才行。403错误是经常会有的,出现403就等着重试就行了,有个重试表,没请求到的都在里面
这个网站现在怎么上不去了 翻墙也不行
说实话真的很感谢你们这样的大佬谢谢
不可能啊,翻墙肯定可以上的
现在真的不能上了,如果能上请告诉我方法OωO
那当然是自己搭梯子上了,ss就不错,vpn不是都被查了吗
怎么自己搭梯子啊
66666666