|
本帖最后由 ynuigv 于 2019-3-14 15:50 编辑
有17本书,打算写进网站,方便碎片时间能随时随地的阅读一下
昨天花了10个小时把它们从微信读书里,全部滚动长截图保存出来了,图片总共近90M
其实把这些图片传到sm.ms 然后放到网站上也一样能看,但是想对一些句子一些段落做做笔记,做做注释,这样就要纯文字了
今早又花了几个小时找ocr软件,希望能直接从图片里复制文字出来。首先是abbyy,不知道为什么,明明下载试用版的,但是安装后愣是没有试用选项,折腾很久只好放弃
然后又找了国产ocr软件,一句话: 全部垃ji !!几乎都不能用...这里奉劝mjj们,以后如果遇到ocr需求,千万别把钱用在买这类国产软件上,浪费钱和浪费时间
最后用了微软的onenote,至少是秒杀一切国产ocr软件,还免费.用完发现效果还是不满意,错误率有点高.(这里说明一下:因为我是截图电子书,一张图的文字都是成千上万的,所以错误率会高一些.但如果我提取的是目录图片的文字,因为才一两百个字,所以正确率能到95%,对于机器取字来说,已经没什么可抱怨的)
最后,干脆决定纯手工打字,这样能一边打一边加深印象,还能及时排版.粗略算了下:17本书至少是上百万个字
感觉这项工程有点艰巨啊

|
|