wenguonideshou 发表于 2017-7-9 09:50:25

DHT磁力链接搜索引擎 python编写 易部署易上手易管理

本帖最后由 wenguonideshou 于 2017-7-29 16:34 编辑

演示地址:暂无

说明:
在ssbc爬虫的基础上修复,现在可以7*24爬取的爬虫,修改了爬取策略,只入库音乐、电影。
python实现的磁力搜索网站,代码比较烂,请轻喷!
部分功能未完成:搜索排行榜、浏览排行榜、DMCA版权投诉(其实是不想做)

功能说明:
搜索:使用sphinx索引+jieba分词+redis缓存访问页面,可前端、后端、爬虫分离部署,实测10W PV不在话下,如果你有百万PV,请联系我定制
相关推荐:使用jieba分词进行推荐



模板:模板在templates目录,模板引擎是jinja2(非常易读),编写自己的专属模板非常方便,中文版文档 http://docs.jinkan.org/docs/jinja2/
后台:可以直接搜索、删除DMCA投诉的关键字,管理首页推荐关键字、用户搜索记录、查看每天爬取的资源数量、管理后台用户



实验环境:centos7 python2.7


下载地址:https://github.com/wenguonideshou/zsky(含一键安装脚本)
提供 高并发大流量、分布式部署、服务器维护、定制开发、模板定制 服务

1.1版更新:解决搜索时多个关键字以空格分开无法匹配到结果的问题,解决后台登录的bug


部署中、使用中有什么疑问意见请联系我

拼命二郎 发表于 2017-7-9 09:51:17

要火,前排mark

cw723 发表于 2017-7-9 09:52:32

老哥。我有一台跑了20GB的数据。

但是索引老是索引不出来(数据库20GB 搜索电影这类关键词只有十几页)

有办法解决么?

求助一下。

wenguonideshou 发表于 2017-7-9 09:55:34


cw723 发表于 2017-7-9 09:52

老哥。我有一台跑了20GB的数据。

但是索引老是索引不出来(数据库20GB 搜索电影这类关键词只有十几页)
ssbc这个要重建索引
重建方法,见“ssbc常见问题.txt”

weilai丶 发表于 2017-7-9 09:52:00

大佬给力,收藏下再说!

cw723 发表于 2017-7-9 10:04:12


wenguonideshou 发表于 2017-7-9 09:55

ssbc这个要重建索引
重建方法,见“ssbc常见问题.txt”
你这套把sphinx取消了?

我用我现在的那个服务器数据套在你这个系统里 可行么?

wenguonideshou 发表于 2017-7-9 10:11:13


cw723 发表于 2017-7-9 10:11

你这套把sphinx取消了?

我用我现在的那个服务器数据套在你这个系统里 可行么? ...

sphinx中文分词 按每个字分开,这让我 一直很纠结

可以这样:
按照我这个的表结构的sql语句,在他的数据库的基础上删除不一致的表,新增我这里特有的表
然后部署我这个程序就行了,只需要在manage.py里面修改下数据库名




zip.gif


(1.39 KB, 下载次数: 562)

2017-7-9 10:28 上传
点击文件名下载附件


cw723 发表于 2017-7-9 09:55:00


wenguonideshou 发表于 2017-7-9 10:28

sphinx中文分词 按每个字分开,这让我 一直很纠结

可以这样:
hash和file这两个差别大么?

sora 发表于 2017-7-9 10:28:07

收藏了. 拿来本地自用也不错.
022.gif

cw723 发表于 2017-7-9 10:11:00


cw723 发表于 2017-7-9 10:47

hash和file这两个差别大么?
我们亲测 filelist里面的数据可以清空 本帖最后由 Mancy 于 2017-7-9 16:12 编辑

可以可以强势围观
022.gif

007.gif
PIP的下载好慢
页: [1] 2 3 4 5 6 7
查看完整版本: DHT磁力链接搜索引擎 python编写 易部署易上手易管理