52杰奇论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4035|回复: 0

杰奇1.7--关关采集器使用教程

[复制链接]

591

主题

249

回帖

100万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1002202
发表于 2022-4-23 16:00:00 | 显示全部楼层 |阅读模式
关关采集器主要注意的是两个文件夹
    rules文件夹、log文件夹:
    Rules是我们放关关采集规则的地方;
    log是记日志的东西,就是关关采集器出错的时候会记录错误的信息,我们看到这个就知道采集出错在哪里了;

    现在我们点开关关采集器,直接打开NovelSpider.exe,就可以启动关关采集器了。(注:打开的过程会有点慢,所以点击一次就等一下。千万不要再点打开,否则在一段时间后会打开多个关关采集器!)
    有些关关会出现提示框,我们不管它直接关掉。

了解关关采集器的一些常用的东西
    打开之后,我们应该立刻修改“设置(S)”→系统设置。:
    1.修改本地网站目录,比如,我的在D:\xiaoshuo
    2.再修改数据库连接字符串
DataSource=127.0.0.1;
Database=数据库名称;
UserID=数据库管理用户名;
Password=数据库管理密码;
port=3306;
charset=gbk
    这上面是设置关关采集器的东西,就是第一次用的时候要设置,设置好了就不需要再设置了。

关于“关关采集器1.7”分类设置

    第一:分类设置一般用大类对应,这些对应你网站的类别。譬如
1|玄幻奇幻=,玄幻,奇幻,魔法,魔幻,玄幻魔法,奇幻玄幻,玄幻小说,玄幻·魔幻,玄幻异界,玄幻奇幻,
1是你网站第一个蓝米玄幻奇幻,等号后面的是采集目标网站可能遇到的分类,越详细越好,一些模板网站对应你的玄幻奇幻没有的,你就添加进去。

    第二:是设置里面的生成
    默认不需要修改,第一个生成目录页html是你网站小说目录页的html,如果你网站用的是伪静态那就不需要生成,第二个生成内容页html这个是小说内容的点击去看小说的文字章节,这个和上面第一个一样,如果你网站用的是伪静态那就不需要生成。
如果在建静态小说网站的话就需要生成了,这个很耗费硬盘的。一般1000本小说都要几G的空间了。

    第三:生成全文阅读。不用管他一般用不到。

    第四:生成OPF。这个是一定要生成的要不网站打不开,你的小说网站也是如果不生成是打开错误的。这里打勾就行了。其他的设置不要管,没有特殊要求是用不到的。
(注意:【设置–的电子书设置】这个不需要管,默认即可,所以的勾勾都不要选,设置里面的图片设置也是默认即可,所以的勾勾都不要选。)

    第五:文字广告。如果你想在你的小说内容里面添加广告可以在这打上内容,看需要选择第一个入库章节添加文字广告真实入库也就是会把你的广告添加入你采集下来的小说,files/article/txt/0/1这些路径的txt文档里面
这个,你的小说是手机版所以需要选择第一个,在你添加广告的时候,章节阅读会看到不过还是不要用这些功能。

    第六:其他【过滤替换】、【文字转图片】。不需要管

    第七:日志选择。全部打勾就可以,这个是采集遇到的记录错误的日志,可以根据这个排除错误。

如何看关关规则行不行
    点击规则,进入规则管理器,我们选择做不的那个三角型符号下拉选择你要测试的规则点击右边的载入,然后点击"测试规则",就会弹出一个界面,如果出现这些这个是获取ID和小说名字
这个是获得小说信息内容包含小说名字分类简介和封面。
    有些网站这些信息没有采集全,我们采集回来的话也会出现不全的这个没什么影响,主要小说章节内容可以看就行了。然后这些是获取采集的章节,这个是获取小说的内容。
    这样就是一个好的采集规则我们可以用这个采集规则去采集小说更新了。

如何采集
    一般,我们使用的是标准采集模式。
    我们点“采集–标准采集模式”有时候会出现错误提示,不管我们在采集框架随便点一个规则,他就会出现正的位置了还有一些出现什么提示我们也是忽略他直接点击【继续】就可以了。
    进入标准采集后正确的姿势后,一般用的是第一个按目标站页面获取编号,这个我们规则写的时候都是按目标站最近更新的小说设置的,采集的时候会自动采集对方更新的小说我们更新的时候也会跟着别人的小说网站更新。
1.设置好ID的范围,按目标站ID采集很少用到一般需要特殊采集对方的某一本书采集的时候才采集。
2.按目标站ID采集很少用到一般需要特殊采集对方的某一本书采集的时候才采集。
3.按自己网站的小说ID采集的,也是要更新自己网站的某一本小说才点击,但是模板站不一定有这本书,所以采集起来很慢。很少用、基本没用。
4.到最下面的日志记录这个一定个要选上会记录采集小说的到时候无缘无故出现采集不了的信息。循环采集这个也一定要选上,这个是自动采集的时候保证采集器自动循环采集对方的网站,循环时间设置看你自己的需求,我一般设置是十分钟。如果你想不停采集那设置为零。

如何设置采集动作?
【添加新书】:这个要加书的时候添加的;
【慎用】:后面带的这两个字的这个是对比模板站的章节名称如果对就继续采集不对就清空再采集,这个不要用,会出大问题的。有时候不小心把自己百度收录过的页面清空那就悲剧了。其他的一些功能那就没什么了看文字就知道了;
【设置2】:这个是对比章节的选择哪个都差不多,反正我怎么感觉不出来有什么不同你默认就可以;
【空章节处理方式】:就是模板站有些小说内容是空的,看你自己需要,不过注意的就是不要选择第二个跳过本章,因为跳过这个章节就会空出一个章节名字,下次采集的时候少一个章节名字就和模板站对比章节名字就无法更新这本书了;
【章节排列方式】:这个是看目标站的情节的,比较复杂。我给你的采集规则都是按目标站顺序的。不要选择什么,一般用到的是【目标站顺序】这个和【按章节ID顺序】,其他的不要用。用这两个都不会出问题,我给你的设置默认即可;
【过滤设置】:看你自己需要设置看字面意思很明白了;
【去除水印】:这个基本不需要;
【代理】、【进度】:一般设置上面的三个数字都是000;
这样就采集快了,代理IP那个是目标站封你的采集然后你在网上找一些代理来,开启代理功能然后采集的。

到这里关关的一些功能都讲完了,其他的是一些辅助的功能可以以后自己慢慢了解。
下面就设置好点击开始采集可以了,选好规则选好按什么采集采集动作进的等可以点击开始了;
如提示“成功开始采集的模式”,这样就好了可以去看你的网站更新了没有。
————————————————


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|52杰奇论坛  

GMT+8, 2024-3-29 21:21 , Processed in 0.098961 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表