asysbang

标题: 中文训练待解决问题 [打印本页]

作者: admin    时间: 2019-12-24 14:49
标题: 中文训练待解决问题
1.只针对一种手写字体,从0开始训练

2.增量训练比较chi_sim 和HanS的区别,在基础上实现个别不识别的汉字

3.什么情况下需要评估数据,是否是必须的

4.Phase E: Generating lstmf files  这个怎么变成多线程并发的

         尝试拆分多个训练文本?
         尝试python版本的训练,是否存在同样的问题

5.如何防止过拟合

https://github.com/tesseract-ocr/tesseract/issues/1572


Fine-tuning是很重要的,但是应该避免针对某一小的数据集进行过度训练,否则可能会降低对整体数据集的识别率。
https://ivanzz1001.github.io/rec ... /tesseract-training

作者: admin    时间: 2020-2-17 14:44
–target_error_rate 0.01 训练至错误率低于0.01


android  笔画要粗一些 不能太细

lstmtraining  命令各种参数研究

作者: admin    时间: 2020-2-17 14:45
https://blog.csdn.net/Hu_helloworld/article/details/100923215

如何合并lstm训练数据

tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 lstm.train


针对少量不容易是别的汉字做定制训练,快速提高特定字的识别率




欢迎光临 asysbang (http://asysbang.com/) Powered by Discuz! X2.5