GameMale
登陆 / 注册 搜索

USERCENTER

SEARCHSITE

搜索

查看: 1453|回复: 4
收起左侧

[资源悬赏] 论坛形式的网页小说有什么比较好的提取方式吗?

 关闭 [复制链接] |关注本帖

黑暗交易驯化黑龙幼崽风雪之家智力鉴定书艾吉奥坏掉的月亮提灯沙漠鸵鸟雪王的心脏

     楼主| 死水 发表于 2025-4-5 20:45:36 | 显示全部楼层 |阅读模式 <
    60金币
    RT,有时候在TT1069和帅兔之类的论坛看到原创的文想提取txt在手机上看。
    我用怠惰下载器会缺章,直接复制会有乱码,尝试过那个去乱码的工具感觉去不干净。
    (不想用手机浏览器看,操作不太方便,我还是比较习惯txt然后用阅读app看)
    不知道大佬们有没有好用的提取论坛小说正文的方法

    最佳答案

    查看完整内容

    有在其他地方找到两个BBS论坛脱水的插件。 一个是在原网页基础上生成可视只有楼主更新的网页 第二个是直接在原网页去掉乱码水印(直接复制没有乱码)
    • 我也说一句

    已有2人关注本帖

    皇甫一心Daddy控
    回复

    使用道具 举报

    瑞雪兆丰年,生灵万物新【新手友好】昆進GM論壇進階勛章森林羊男眼镜蛇图腾

      sola_s_071 发表于 2025-4-5 20:45:37 | 显示全部楼层 <
      有在其他地方找到两个BBS论坛脱水的插件。
      一个是在原网页基础上生成可视只有楼主更新的网页
      第二个是直接在原网页去掉乱码水印(直接复制没有乱码)

      本帖子中包含更多资源

      您需要 登录 才可以下载或查看,没有账号?立即注册

      x
        收起(1)
      • 死水 死水 :去除乱码这个插件能用,脱水那个插件似乎TT1069用不了,只能提取第一页
        2025-04-05 23:42 回复
      • 我也说一句

      回复

      举报

        咸鱼鱼 发表于 2025-4-5 21:07:34 | 显示全部楼层 <
        我的建议是就用那个已经
        总安装量169,516
        评分477个好评
        创建于2016年11月23日至今还在更新的怠惰小说下载器

        维护了这么久的下载工具你很难找到比这更好的

        然后好好一遍常见问题
        常见问题
        章节没有“第几章第几节”的字样怎么办?
        参考第二层心法输入其中一个章节名即可
        成功下载一定数量章节后抓取超时失败怎么办?
        可能是网站限制了并发数,在设置中调低线程数即可。设为正数代表线程数,负数则代表单线程且间隔x秒下载一章,例如-2代表每隔2秒下载一章
        按下快捷键没有反应怎么办?
        可能是快捷键被其他应用接管了,使用脚本管理器中的命令菜单下载即可
        有无关干扰字符怎么办?
        设置里输入干扰码css选择器即可,多个选择器用逗号分隔
        章节顺序不对怎么办?
        默认是按网页内出现位置排序。点击设置,尝试更改为“按网址重新排序”或者“按章节名重新排序”即可
        章节标题有误怎么办?
        默认是取章节链接文字为标题,可以在设置中自定义章节标题,输入 title 即为抓取分页页面的标题,输入 h1 即为抓取分页页面 h1 级别的文章标题
        抓取失败是什么原因?
        NETWORK ERROR 说明网络错误,可能是当前本机网络故障,也可能是被目标网站封禁了 IP。 TIMEOUT 说明访问超时,可能是因为当前网络速率过慢或者目标网站流量超限。建议更换 IP 后尝试下载。
        其他问题欢迎通过 email 联系我,恰有空且心情好时可帮你解决。
          收起(4)
        • 死水 死水 :我目前用的就是这个,缺章问题解决了,之前用的自动翻页器有问题换了东方永页机就OK了。现在的问题是会抓取到一些LZ回复其他人的内容(非小说正文),有办法解决吗?
          2025-04-05 22:00 回复
        • 咸鱼鱼 咸鱼鱼 :回复 死水 : 你继续去看里面的七层心法。https://greasyfork.org/zh-CN/scripts/25068-downloadallcontent
          2025-04-05 23:35 回复
        • 死水 死水 :回复 咸鱼鱼 :看了但是没有看懂= =,自定义函数什么的完全不理解。就TT1069论坛使用的话有具体的操作方法吗。
          2025-04-06 01:05 回复
        • 咸鱼鱼 咸鱼鱼 :回复 死水 :我的建议是自己手动删……或者让ai帮你改,低于100字数的楼层不记录
          2025-04-06 11:35 回复
        • 我也说一句

        回复

        举报

        万众瞩目苏格兰圆脸胖鸡可爱毛团享受美食的小伯眠眠茧

          Brine 发表于 2025-4-5 21:52:16 | 显示全部楼层 <
          直接复制存在乱码通常原因是作品网站有一套自己的映射表,直接复制出来识别就会出现口口等不显示问题
          解决方式有两种
          第一个就是已有的爬虫,比如这个怠惰下载器,确实是维护这么久以来的最佳的选择。
          如果第一个方法不行又实在想解决
          第二个就可以考虑ocr识别,说人话就是截图转文字,可以考虑umi-ocr或者pixpin。还有一个邪道就是截图发微信文字识别,原理是一样的也不用下软件不过长文的话肯定比爬下来要麻烦的多
          (当然如果你能弄到他们的字体映射表的话,可以用油猴写个脚本改css为可选中然后监听复制事件替换到剪切板就能完成复制,不过这得有一些代码能力了)
            收起(2)
          • 死水 死水 :直接复制出现乱码的问题我解决了,复制完之后用txtFormat里的【查找干扰符】的正则式就能完美去除。
            2025-04-05 22:01 回复
          • sola_s_071 sola_s_071 :还是会有遗漏
            2025-04-05 23:01 回复
          • 我也说一句

          回复

          举报

            哈哈哈哈_ 发表于 2025-4-5 23:16:43 | 显示全部楼层 <
            PC上手动复制有个方法,可以使用AdGuard、uBlock Origin广告屏蔽插件,进入元素选择模式,选中文章中的乱码,调整屏蔽元素后再复制就没乱码了。
            • 我也说一句

            回复

            举报

            您需要登录后才可以回帖 登录 | 立即注册

            本版积分规则

            文字版|手机版|小黑屋|GameMale

            GMT+8, 2025-5-19 11:12 , Processed in 0.081571 second(s), 55 queries , Redis On.

            Copyright © 2013-2025 GameMale

            All Rights Reserved.

            快速回复 返回列表