ygbook采集规则编写教程

逗比泡泡糖 发表于 2018-2-13 16:40:43

玩了几天了，分享些采集的经验。

首先ygbook分为单列表和多栏目匹配方式

单列表：http://www.biquge.com.tw/
多栏目：https://www.snwx8.com/

区别就是多栏目有分页，可显示全部小说。

先以单列表：http://www.biquge.com.tw/ 举例
前面的什么图片本地化目标网站域名编码都不用多说了，都看得懂。其中单列表监控页面为首页，对应情况取源站顶部分类要中文的，比如玄幻小说修真小说到最后恐怖小说依次对应本站如果分类出入太大的可自行在后台建分类再对应，最大页码为1.
规则列表页码这个很好理解比如1|1|200的意思就是从第一页开始到200页，每次增加1页。
无缩略图标志一般为nocover，如果不是你看下源站是什么自行改即可。
列表页：链接CSS选择器和列表页：标题CSS选择器这个怎么选我们打开首页看到最近更新列表先取大区域：#newscontent 再取一个区域 .l 区别于下方最新入库的的.r最后我们再取我们真正要的区域.s2 a结束组合就是#newscontent .l .s2 a，很多人喜欢这个样子写就跟提示差不多 #newscontent li a 有些站是可以的，但是要分清楚。
文章页的各个选项，如果是有360结构化的站那么以下是通用的，标题CSS选择器：meta|content作者CSS选择器meta|content缩略图CSS选择器meta|content 内容CSS选择器一般为#intro 因为源站简介源码一般为，如果不是自行修改intro即可，完结标志不用多说了。
章节目录页：区域CSS选择器一般为：#list自行查看源码就知道了章节目录页：采集规则也看源码如biquge.com.tw为第1章工匠大师系统，那么写成即可。
如果有这样子的：第九章第二次交手你写成，把不要的用代替掉即可。
最后章节内容页：内容CSS选择器一般为#content 为什么上面也提到过自行查看源码就明白了。

通用替换{filter replace='hostloc'}笔趣阁{/filter} 如果不替换只删除的话删除hostloc即可。

这就完了然后测试修正即可。

多栏目以：https://www.snwx8.com/ 为例这就不解释那么多了，累。。。
规则列表页面为：https://www.snwx8.com//

nerlnsqy 发表于 2018-2-13 16:41:46

感谢楼主的教程

019.gif
019.gif
019.gif

龙啸舞 发表于 2018-2-13 16:43:50

好多小说站，会不会有版权问题

avi 发表于 2018-2-13 17:10:09

emmmm 看完了还是不会写..

fl20002 发表于 2018-2-13 17:12:02

有没有能直接采集到自己站的，还要人点了才采集，太费事了

bios12567496 发表于 2018-2-13 17:13:19

谢谢分享！

helwo 发表于 2018-2-13 17:26:36

make，备份我的博客了。

vinsonpyg 发表于 2018-2-15 07:34:34

mark!

黄阿玛 发表于 2018-2-22 14:38:58

厉害，感谢

逗比泡泡糖 发表于 2018-2-22 14:39:47

这个好给力！！按照教程采集一个单列表站，可是采集过来的分类和源站不一致，比如源站是『都市言情』而我这边却变成『玄幻小说』了，按照楼主的教程cate对应我源站写的是顶部中文分类

页: [1] 2

全球主机交流论坛's Archiver

ygbook采集规则编写教程