asysbang
标题:
中文训练待解决问题
[打印本页]
作者:
admin
时间:
2019-12-24 14:49
标题:
中文训练待解决问题
1.只针对一种手写字体,从0开始训练
2.增量训练比较chi_sim 和HanS的区别,在基础上实现个别不识别的汉字
3.什么情况下需要评估数据,是否是必须的
4.Phase E: Generating lstmf files 这个怎么变成多线程并发的
尝试拆分多个训练文本?
尝试python版本的训练,是否存在同样的问题
5.如何防止过拟合
https://github.com/tesseract-ocr/tesseract/issues/1572
Fine-tuning是很重要的,但是应该避免针对某一小的数据集进行过度训练,否则可能会降低对整体数据集的识别率。
https://ivanzz1001.github.io/rec ... /tesseract-training
作者:
admin
时间:
2020-2-17 14:44
–target_error_rate 0.01 训练至错误率低于0.01
android 笔画要粗一些 不能太细
lstmtraining 命令各种参数研究
作者:
admin
时间:
2020-2-17 14:45
https://blog.csdn.net/Hu_helloworld/article/details/100923215
如何合并lstm训练数据
tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 lstm.train
针对少量不容易是别的汉字做定制训练,快速提高特定字的识别率
欢迎光临 asysbang (http://asysbang.com/)
Powered by Discuz! X2.5