墨燝 发表于 2024-1-17 18:27:17

论坛活动内容爬取简单工具

来源于活动员们的需求,减少需要大量统计活动的工作量。相关功能已经经过测试,保证可用。
主要功能:自动爬取指定帖子的每一楼,获取用户id、uid,以及楼内的文本内容
使用说明:1. 首先打开浏览器的控制台,获取论坛的cookie,并将其内容复制到工具同目录下的cookie.txt内2. 打开worker.exe,输入所需要爬取的帖子tid(帖子网址thread-xxxxxx-1-1.html)3. 爬取的内容会放在同目录下的content.txt中,一楼为一行,后续可以使用其他合适工具继续处理。格式为:id: xxx,uid: xxxxxx, posts: ['line1', 'line2', …]
注意事项:1.cookie有一定有效期(一般为一个月),如果失效请即时更新2. id和uid的爬取都是准确的,但目前没有针对高楼重复问题进行修正,建议修复后使用本工具3. 楼层内容的提取仅限文本内容,即不可以使用任何美化。包括但不限于字体调整,颜色调整,加粗,折叠等。上述操作将把纯文字用代码块修饰而无法简单提取4. 目前代码包内的可执行文件与python文件执行内容一致,只需择一,有能力的用户可以自行安装python环境运行源码,并做出修改。

欢迎反馈bug并且提出更细致的需求鉴于工具实际上对帖子每一页内容进行快速访问,因此不对普通用户开放下载权限。源码:exe打包:



泥潭疗养院

Burry 发表于 2024-1-17 18:33:39

很实用的工具呢,这下可以节省不少功夫。

无心gal游戏 发表于 2024-1-17 18:34:35

虽然看不懂代码但收藏了,啥时候用得到在研究;P

ditto 发表于 2024-1-17 18:34:55

这个工具真的好棒啊,真的可以省很多时间

hellseasons 发表于 2024-1-17 18:37:03

真不错啊,这个工具,这样就不需要很麻烦的找楼了~

凯诺斯 发表于 2024-1-17 18:42:57

好强大的工具惹,以后组织活动的话方便多了:lol

娱乐法师火布偶 发表于 2024-1-17 18:50:14

以前写过一些网页爬虫,感觉关键是数据的预处理和规范化

柳葉蕭瑟 发表于 2024-1-17 18:53:25

看起來很實用 雖然看不懂,不過辛苦樓主的教學 先收藏一波

Okabe 发表于 2024-1-17 19:04:38

感觉以后的活动都可以用这方法来统计,挺方便的.{:4_114:}

曜阳炎 发表于 2024-1-17 19:07:06

虽然不知道用哪,但总感觉很有用

深暗幽狼 发表于 2024-1-17 19:15:32

只能纯文本挺好的,本来就方便自己记录和活动员统计的,花里胡哨文字影响浏览(

卡扎拉尔 发表于 2024-1-17 19:27:34

太棒了,我马上用起来!!!

青藤暮夏 发表于 2024-1-17 19:33:17

很好用的工具,已经想象到活动员用这个能有多省事了

歧路歌 发表于 2024-1-17 19:35:30

太感谢啦!这次活动统计就能用上,可以节约好多时间!以后活动员统计数据也方便了{:6_197:}

毛茸茸兽兽 发表于 2024-1-17 19:36:23

吼(´×ω×`)看……看不栋,好腻害的样子
喔~第三条,难怪小伯会发通知那样说啊~

是啊困啊 发表于 2024-1-17 19:51:53

泥潭真是卧虎藏龙呀:lol

大墨迹 发表于 2024-1-17 19:57:28

感觉对我的活动很有帮助(嘘~)

虎爹 发表于 2024-1-17 20:05:27

我一般都是点只看该作者存书签了,有这个简单小工具方便多了,收藏了

sb123 发表于 2024-1-17 20:12:17

那下次活动规则要加一条,任何进行修改回帖字体,颜色,加入图片等行为的玩家视为弃权(

Kogenta 发表于 2024-1-17 20:42:52

应该能给活动组织者省不少功夫的说0.0
页: [1] 2 3
查看完整版本: 论坛活动内容爬取简单工具