设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 92|回复: 8

python 请求正则帮助

[复制链接]

189

主题

681

回帖

2107

积分

金牌会员

积分
2107
发表于 2019-5-15 22:37:49 | 显示全部楼层 |阅读模式
论坛有个大佬写了Python 辅助采集  
bookattr = re.findall(r']+>([^*[\s\S]*?[td]([0-9]+)[/td]',content,re.M)


其中里面的
]+>([^*[\s\S]*?[td]([0-9]+)[/td]
   
这个规则看不懂 &difference    这个是起什么用呢?



https://www.52.ht/thread-288407-1-1.html   大佬的帖子


我写的规则是采集这个网站  https://www.77nt.com/top/lastupdate.html   

   getattr = re.findall(r'[url=]([^',content,re.M)
  每次都提示我规则错误  ,请指教
回复

使用道具 举报

26

主题

590

回帖

1346

积分

金牌会员

积分
1346
发表于 2019-5-15 22:52:26 | 显示全部楼层
看到这种正则解析网页的就蛋疼,好好的一堆 HTML / XML 解析库不用
回复

使用道具 举报

189

主题

681

回帖

2107

积分

金牌会员

积分
2107
 楼主| 发表于 2019-5-15 22:52:54 | 显示全部楼层

爱纯粹 发表于 2019-5-15 22:52

看到这种正则解析网页的就蛋疼,好好的一堆 HTML / XML 解析库不用

求指教
回复

使用道具 举报

93

主题

1525

回帖

3375

积分

论坛元老

积分
3375
发表于 2019-5-15 22:52:00 | 显示全部楼层
这跟正则没有关系啊,&difference是他网址中固定的一串字符

报错可能是因为,网站不一样了,你提取出来的东西 和 人家提取出来的东西也不一样

后面处理这些不一样的东西,报错了
回复

使用道具 举报

23

主题

261

回帖

623

积分

高级会员

积分
623
发表于 2019-5-15 23:03:57 | 显示全部楼层
原帖子是针对http://all.17k.com来采集,你采集的网站不一样,正则的写法也要不一样

&在正则里面没有含义,所以当做普通字符来看就行
回复

使用道具 举报

189

主题

681

回帖

2107

积分

金牌会员

积分
2107
 楼主| 发表于 2019-5-15 23:27:11 | 显示全部楼层

robot 发表于 2019-5-15 23:03

这跟正则没有关系啊,&difference是他网址中固定的一串字符

报错可能是因为,网站不一样了,你提取出来的 ...

大兄弟,我知道  我就是按照被采集网站写都规则
回复

使用道具 举报

21

主题

378

回帖

913

积分

高级会员

积分
913
发表于 2019-5-15 23:31:47 | 显示全部楼层
规则并没有问题,你可以拿到这里测试
https://pythex.org/

另外贴下你的报错信息
回复

使用道具 举报

189

主题

681

回帖

2107

积分

金牌会员

积分
2107
 楼主| 发表于 2019-5-15 23:03:00 | 显示全部楼层

zhujimi 发表于 2019-5-15 23:33

规则并没有问题,你可以拿到这里测试
https://pythex.org/

感谢你 我试下
回复

使用道具 举报

114

主题

345

回帖

1074

积分

金牌会员

积分
1074
发表于 2019-5-15 23:33:56 | 显示全部楼层

爱纯粹 发表于 2019-5-15 22:52

看到这种正则解析网页的就蛋疼,好好的一堆 HTML / XML 解析库不用

同意  铺天盖地的普及人性化的bs4和pyquery库,但是还是有人坚持反人性的正则
"
有时候不好写.

暴力的写法
,我经常用.
[ol]
  • between(text,str1,str2)
  • after(text,str1)
  • before(text,str2)[/ol]复制代码
  • 回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2025-12-20 04:11 , Processed in 0.018196 second(s), 4 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2025 Discuz! Team.

    快速回复 返回顶部 返回列表