asysbang

标题: 中文训练待解决问题 [打印本页]

作者: admin 时间: 2019-12-24 14:49
标题: 中文训练待解决问题
1.只针对一种手写字体，从0开始训练

2.增量训练比较chi_sim 和HanS的区别，在基础上实现个别不识别的汉字

3.什么情况下需要评估数据，是否是必须的

4.Phase E: Generating lstmf files  这个怎么变成多线程并发的

      尝试拆分多个训练文本？
      尝试python版本的训练，是否存在同样的问题

5.如何防止过拟合

https://github.com/tesseract-ocr/tesseract/issues/1572

Fine-tuning是很重要的，但是应该避免针对某一小的数据集进行过度训练，否则可能会降低对整体数据集的识别率。
https://ivanzz1001.github.io/rec ... /tesseract-training

作者: admin 时间: 2020-2-17 14:44
–target_error_rate 0.01 训练至错误率低于0.01

android 笔画要粗一些不能太细

lstmtraining 命令各种参数研究

作者: admin 时间: 2020-2-17 14:45
https://blog.csdn.net/Hu_helloworld/article/details/100923215

如何合并lstm训练数据

tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 lstm.train

针对少量不容易是别的汉字做定制训练，快速提高特定字的识别率

欢迎光临 asysbang (http://asysbang.com/)