来源于活动员们的需求,减少需要大量统计活动的工作量。 相关功能已经经过【疯狂之旅】活动测试,保证可用。
主要功能: 自动爬取指定帖子的每一楼,获取用户id、uid,以及楼内的文本内容,并且写入表格内(目前默认文件名为day1.xlsx) 以便于后续使用表格而非python处理
使用说明: 1. 首先打开浏览器的控制台,获取论坛的cookie,并将其内容复制到工具同目录下的cookie.txt内 2. 打开worker.exe,输入所需要爬取的帖子tid(帖子网址thread-xxxxxx-1-1.html) 3. 爬取的内容会放在同目录下的day1.xlsx中,一楼为一行,可以根据楼内内容产生特定的列标 楼内为: key1#value1 key2#value2 则xlsx内每一行为:value1 value2 注:未对表格内key进行写入,请自行后续添加表头的key,以及要求楼内key不可乱序,亦不支持空行,具体参照【疯狂之旅】活动主页https://www.gamemale.com/thread-139179-1-5.html
注意事项: 1.cookie有一定有效期(一般为一个月),如果失效请即时更新 2. id和uid的爬取都是准确的,但目前没有针对高楼重复问题进行修正,建议修复后使用本工具 3. 楼层内容的提取仅限文本内容,即不可以使用任何美化。包括但不限于字体调整,颜色调整,加粗,折叠等。上述操作将把纯文字用代码块修饰而无法简单提取,并且请勿在key或value内使用“#”符号,仅做为分隔符使用。 4. 有能力的用户可以自行安装python环境运行源码,并做出修改。
欢迎反馈bug并且提出更细致的需求 鉴于工具实际上对帖子每一页内容进行快速访问,因此不对普通用户开放下载权限。 源码: exe打包:暂不提供,有需要可以直接联系我
来自群组: 泥潭療養院 |