来源于活动员们的需求,减少需要大量统计活动的工作量。 相关功能已经经过测试,保证可用。
主要功能: 自动爬取指定帖子的每一楼,获取用户id、uid,以及楼内的文本内容
使用说明: 1. 首先打开浏览器的控制台,获取论坛的cookie,并将其内容复制到工具同目录下的cookie.txt内 2. 打开worker.exe,输入所需要爬取的帖子tid(帖子网址thread-xxxxxx-1-1.html) 3. 爬取的内容会放在同目录下的content.txt中,一楼为一行,后续可以使用其他合适工具继续处理。格式为: id: xxx,uid: xxxxxx, posts: ['line1', 'line2', …]
注意事项: 1.cookie有一定有效期(一般为一个月),如果失效请即时更新 2. id和uid的爬取都是准确的,但目前没有针对高楼重复问题进行修正,建议修复后使用本工具 3. 楼层内容的提取仅限文本内容,即不可以使用任何美化。包括但不限于字体调整,颜色调整,加粗,折叠等。上述操作将把纯文字用代码块修饰而无法简单提取 4. 目前代码包内的可执行文件与python文件执行内容一致,只需择一,有能力的用户可以自行安装python环境运行源码,并做出修改。
欢迎反馈bug并且提出更细致的需求 鉴于工具实际上对帖子每一页内容进行快速访问,因此不对普通用户开放下载权限。 源码: exe打包:
来自群组: 泥潭疗养院 |