DHT磁力链接搜索引擎 python编写 易部署易上手易管理
本帖最后由 wenguonideshou 于 2017-7-29 16:34 编辑演示地址:暂无
说明:
在ssbc爬虫的基础上修复,现在可以7*24爬取的爬虫,修改了爬取策略,只入库音乐、电影。
python实现的磁力搜索网站,代码比较烂,请轻喷!
部分功能未完成:搜索排行榜、浏览排行榜、DMCA版权投诉(其实是不想做)
功能说明:
搜索:使用sphinx索引+jieba分词+redis缓存访问页面,可前端、后端、爬虫分离部署,实测10W PV不在话下,如果你有百万PV,请联系我定制
相关推荐:使用jieba分词进行推荐
模板:模板在templates目录,模板引擎是jinja2(非常易读),编写自己的专属模板非常方便,中文版文档 http://docs.jinkan.org/docs/jinja2/
后台:可以直接搜索、删除DMCA投诉的关键字,管理首页推荐关键字、用户搜索记录、查看每天爬取的资源数量、管理后台用户
实验环境:centos7 python2.7
下载地址:https://github.com/wenguonideshou/zsky(含一键安装脚本)
提供 高并发大流量、分布式部署、服务器维护、定制开发、模板定制 服务
1.1版更新:解决搜索时多个关键字以空格分开无法匹配到结果的问题,解决后台登录的bug
部署中、使用中有什么疑问意见请联系我
要火,前排mark 老哥。我有一台跑了20GB的数据。
但是索引老是索引不出来(数据库20GB 搜索电影这类关键词只有十几页)
有办法解决么?
求助一下。
cw723 发表于 2017-7-9 09:52
老哥。我有一台跑了20GB的数据。
但是索引老是索引不出来(数据库20GB 搜索电影这类关键词只有十几页)
ssbc这个要重建索引
重建方法,见“ssbc常见问题.txt” 大佬给力,收藏下再说!
wenguonideshou 发表于 2017-7-9 09:55
ssbc这个要重建索引
重建方法,见“ssbc常见问题.txt”
你这套把sphinx取消了?
我用我现在的那个服务器数据套在你这个系统里 可行么?
cw723 发表于 2017-7-9 10:11
你这套把sphinx取消了?
我用我现在的那个服务器数据套在你这个系统里 可行么? ...
sphinx中文分词 按每个字分开,这让我 一直很纠结
可以这样:
按照我这个的表结构的sql语句,在他的数据库的基础上删除不一致的表,新增我这里特有的表
然后部署我这个程序就行了,只需要在manage.py里面修改下数据库名
zip.gif
(1.39 KB, 下载次数: 562)
2017-7-9 10:28 上传
点击文件名下载附件
wenguonideshou 发表于 2017-7-9 10:28
sphinx中文分词 按每个字分开,这让我 一直很纠结
可以这样:
hash和file这两个差别大么? 收藏了. 拿来本地自用也不错.
022.gif
cw723 发表于 2017-7-9 10:47
hash和file这两个差别大么?
我们亲测 filelist里面的数据可以清空 本帖最后由 Mancy 于 2017-7-9 16:12 编辑
可以可以强势围观
022.gif
007.gif
PIP的下载好慢