论坛活动内容爬取简单工具
来源于活动员们的需求,减少需要大量统计活动的工作量。相关功能已经经过测试,保证可用。主要功能:自动爬取指定帖子的每一楼,获取用户id、uid,以及楼内的文本内容
使用说明:1. 首先打开浏览器的控制台,获取论坛的cookie,并将其内容复制到工具同目录下的cookie.txt内2. 打开worker.exe,输入所需要爬取的帖子tid(帖子网址thread-xxxxxx-1-1.html)3. 爬取的内容会放在同目录下的content.txt中,一楼为一行,后续可以使用其他合适工具继续处理。格式为:id: xxx,uid: xxxxxx, posts: ['line1', 'line2', …]
注意事项:1.cookie有一定有效期(一般为一个月),如果失效请即时更新2. id和uid的爬取都是准确的,但目前没有针对高楼重复问题进行修正,建议修复后使用本工具3. 楼层内容的提取仅限文本内容,即不可以使用任何美化。包括但不限于字体调整,颜色调整,加粗,折叠等。上述操作将把纯文字用代码块修饰而无法简单提取4. 目前代码包内的可执行文件与python文件执行内容一致,只需择一,有能力的用户可以自行安装python环境运行源码,并做出修改。
欢迎反馈bug并且提出更细致的需求鉴于工具实际上对帖子每一页内容进行快速访问,因此不对普通用户开放下载权限。源码:exe打包:
泥潭疗养院 很实用的工具呢,这下可以节省不少功夫。 虽然看不懂代码但收藏了,啥时候用得到在研究;P 这个工具真的好棒啊,真的可以省很多时间 真不错啊,这个工具,这样就不需要很麻烦的找楼了~ 好强大的工具惹,以后组织活动的话方便多了:lol 以前写过一些网页爬虫,感觉关键是数据的预处理和规范化 看起來很實用 雖然看不懂,不過辛苦樓主的教學 先收藏一波 感觉以后的活动都可以用这方法来统计,挺方便的.{:4_114:} 虽然不知道用哪,但总感觉很有用 只能纯文本挺好的,本来就方便自己记录和活动员统计的,花里胡哨文字影响浏览( 太棒了,我马上用起来!!! 很好用的工具,已经想象到活动员用这个能有多省事了 太感谢啦!这次活动统计就能用上,可以节约好多时间!以后活动员统计数据也方便了{:6_197:} 吼(´×ω×`)看……看不栋,好腻害的样子
喔~第三条,难怪小伯会发通知那样说啊~ 泥潭真是卧虎藏龙呀:lol 感觉对我的活动很有帮助(嘘~) 我一般都是点只看该作者存书签了,有这个简单小工具方便多了,收藏了 那下次活动规则要加一条,任何进行修改回帖字体,颜色,加入图片等行为的玩家视为弃权( 应该能给活动组织者省不少功夫的说0.0