文字提取这个,其实吧,你要防还真的挺难的。最简单的是wps会员,工作需要就经常弄所以知道,就算改变字体和排版,之前我还提了一个word图片的红头文件,直接转存pdf再转图片再提取,除了错别字需要校对以外基本没啥问题。而楼上提到的orc我是七八年前做翻译的时候提扫图文字用过,orc有专门针对日版和台版的竖排提取,不过现在这种模式的功能放到付费版本去了,你们排竖版可以规避免费版本的orc。
所以我是建议用特殊字体,竖排加上下划线,且标点使用非标准字符,一般识别文字编码是ansi,你们扩大成utf8的大部分都可以屏蔽掉。
所以我是建议用特殊字体,竖排加上下划线,且标点使用非标准字符,一般识别文字编码是ansi,你们扩大成utf8的大部分都可以屏蔽掉。














