三洋三洋
|
0a51bde1c5
|
bugfix: missing filter_fn and inference/train transform
|
2024-05-12 07:49:04 +00:00 |
|
三洋三洋
|
9b7e392c66
|
merge dev后调整了项目结构
|
2024-04-21 00:48:24 +08:00 |
|
三洋三洋
|
7a8491b595
|
checkpoint
|
2024-04-17 10:20:15 +00:00 |
|
三洋三洋
|
7d237d820c
|
work in progress
|
2024-04-12 03:20:04 +00:00 |
|
三洋三洋
|
5c58b88c96
|
优化了transform.py中的trim_white_border
|
2024-04-10 16:09:13 +00:00 |
|
三洋三洋
|
17c92cce37
|
merge v3_nature_scence
|
2024-03-28 14:33:25 +00:00 |
|
三洋三洋
|
e8967dce0f
|
写好了v3版本的训练代码(v3版本加入了自然场景训练增强)
|
2024-03-28 12:54:00 +00:00 |
|
三洋三洋
|
dbf35fe9c4
|
初步修改完成,但仍然有问题
|
2024-03-27 04:54:49 +00:00 |
|
三洋三洋
|
6373e19132
|
merge v2
|
2024-03-26 08:16:28 +00:00 |
|
三洋三洋
|
ef7cccff03
|
TexTellerv2
|
2024-03-25 11:46:43 +00:00 |
|
OleehyO
|
14b637cd6b
|
Update README_zh.md
|
2024-03-25 16:35:34 +08:00 |
|
三洋三洋
|
a42df1510f
|
完成了TexTellerv2的训练(不支持自然场景)
|
2024-03-13 02:21:02 +00:00 |
|
三洋三洋
|
93979bddf6
|
修复了bug:当样本中出现非常长的公式(对应的token数可能超过2048),会导致给label进行embedding时index out of range
|
2024-03-06 13:59:36 +00:00 |
|
三洋三洋
|
38877d90b8
|
完成了load1) er.py, 以 2) 部分代码的loader加载路径的更改
|
2024-03-03 15:59:15 +00:00 |
|
三洋三洋
|
04b99b8451
|
完成了web,ray server,重构了代码
|
2024-02-08 13:55:22 +00:00 |
|
三洋三洋
|
274fd6cdda
|
加入了输入图片的最小宽和高的过滤,防止注入垃圾数据
|
2024-02-02 05:41:49 +00:00 |
|
三洋三洋
|
ab1a05bf32
|
完成了所有代码
|
2024-02-02 04:50:19 +00:00 |
|
三洋三洋
|
ebac28a90d
|
tmp commit
|
2024-01-31 10:44:41 +00:00 |
|
三洋三洋
|
1fba652766
|
Initial Commit
|
2024-01-31 10:11:07 +00:00 |
|
三洋三洋
|
b7bf5c444f
|
加入和推理和评估的代码
|
2024-01-30 08:36:23 +00:00 |
|
三洋三洋
|
c6d5c91955
|
写完了模型代码、Tokenizer、数据预处理、训练脚本,但目前的训练脚本没有配置generate(评估仅能看loss)
|
2024-01-28 06:19:23 +00:00 |
|
三洋三洋
|
9d27ee0585
|
写好了ocr_model训练脚本的大致框架
|
2024-01-23 04:23:08 +00:00 |
|