wubingyonglei 发表于 2024-9-25 20:51:48

求万能软件/脚本自动清除:TXT句尾乱码/群号

本帖最后由 wubingyonglei 于 2024-9-26 12:14 编辑

感觉此悬赏偏向于小说内容,所以发在文学创作区,帅同、HT都是在此区

实验下载HT8月(433篇)——最后留了较喜欢的8篇

接着,就是面对永远不止的TXT句尾乱码群号(HT特有)
例:最小的117KB
    “小逸,你没事吧。”看着宁天逸突然脸红,用手指微微捂住鼻子,剑斗罗还以为他是累到了。莲载膇薪请连系肆⒈六34零o
要手动删除句尾乱码群号20次+{:6_166:}

范文:海棠(HT)的一篇文,【原创】《斗罗之催眠大神 更35》作者:伯牙绝弦
隐藏群号乱码,甚至比ST很隐藏,时不时跳出来恶心读者。
像:带来的快感也是无法比拟的。宁天逸已经体验过这种极致沉沦,无与伦比的快感,以后怕是再也不能清心寡欲,无法戒掉了。连傤缒新綪連鎴④⑶壹⒊零③
而且群号还各种不同,无法批量删除,鋂日更薪、毎日綆新等等

接着当看着400KB+几乎不敢想象。
想请教各位大佬有无秘诀
如果群号很难无法解决,那我换替别人提问:

存了“ST很多遗文但里面句尾超多乱码“
  黑山把自己与家里女人的担心说给了堂兄大强听。“还是来找哥讨个主意。”他点燃大强开的“芙蓉王”香烟说。j24j$!Q5nni
这是论坛防盗文设置·句尾乱码,而且是已存了离线TXT(ST已闭站了不能网络连接),毕竟当初不知道还有神秘脚本跟翻白删字。(别的存文大佬表示惋惜)

在下隐约记得之前用WORD可以操作,像段落符号+0~9+a~z。但毕竟这属于十年前的办法。不太好用
先谢谢各位大佬。




咸鱼鱼 发表于 2024-9-25 20:51:49

本帖最后由 咸鱼鱼 于 2024-9-25 21:10 编辑

网络小说文本分割、合并转换、排版整理、去广告阅读,多功能校对神器——txtFormat
https://www.52pojie.cn/thread-1066119-1-1.html#:~:text=txtFor

来试试这个吧,如果有没去掉的,可以让ChatGPT帮你写正则去除


下面是我用的比较舒服的国内ChatGPT代理

https://q40vyu.aitianhu1.top/#/chat/1002


福黎 发表于 2024-9-25 21:04:24

本帖最后由 色の狐狸 于 2024-9-25 21:09 编辑

https://www.yuque.com/legado/wiki/xz
试试这个

leek1102 发表于 2024-9-25 21:09:23

编辑小说的工具去除乱码不能完全去除干净,如果你是从网页上复制的小说,可以直接先复制到doc文档,小说网站的乱码文字在doc文档同样是用白色显示,然后就可以在文档中选取所有白色文字一次性删除干净。

wandmwh 发表于 2024-9-25 23:49:07

我一直是手动删除,好像有点蠢了:)

user_login 发表于 2024-9-26 01:26:23

本帖最后由 user_login 于 2024-9-28 14:56 编辑

    “小逸,你没事吧。”看着宁天逸突然脸红,用手指微微捂住鼻子,剑斗罗还以为他是累到了。莲载膇薪请连系肆⒈六34零o
思路是识别字的拼音,检测到"lian'zai'zhui'xin"后把本段此处之后的内容删除。
  黑山把自己与家里女人的担心说给了堂兄大强听。“还是来找哥讨个主意。”他点燃大强开的“芙蓉王”香烟说。j24j$!Q5nni
这个最简单,直接识别到连续n个的这种的字符删除就好了。

用的是上面的思路,通过对比关键词拼音识别到之后删除本段之后的内容。
不过关键词得自己找,这个用的是"每日更新"和"连载追新"。
存在正文中也有关键词而误删的可能。
或者是因为用的拼音字库不全而漏删。(比如"连傤缒新綪連鎴"中的"綪",字库里没有收录qing这个音。)
https://img.gamemale.com/album/202409/28/143130uzl68fhjtipylpcj.png


页: [1]
查看完整版本: 求万能软件/脚本自动清除:TXT句尾乱码/群号