Commit Graph

14 Commits

Author SHA1 Message Date
三洋三洋
dbf35fe9c4 初步修改完成,但仍然有问题 2024-03-27 04:54:49 +00:00
三洋三洋
6373e19132 merge v2 2024-03-26 08:16:28 +00:00
三洋三洋
ef7cccff03 TexTellerv2 2024-03-25 11:46:43 +00:00
三洋三洋
a42df1510f 完成了TexTellerv2的训练(不支持自然场景) 2024-03-13 02:21:02 +00:00
三洋三洋
93979bddf6 修复了bug:当样本中出现非常长的公式(对应的token数可能超过2048),会导致给label进行embedding时index out of range 2024-03-06 13:59:36 +00:00
三洋三洋
38877d90b8 完成了load1) er.py, 以 2) 部分代码的loader加载路径的更改 2024-03-03 15:59:15 +00:00
三洋三洋
04b99b8451 完成了web,ray server,重构了代码 2024-02-08 13:55:22 +00:00
三洋三洋
274fd6cdda 加入了输入图片的最小宽和高的过滤,防止注入垃圾数据 2024-02-02 05:41:49 +00:00
三洋三洋
ab1a05bf32 完成了所有代码 2024-02-02 04:50:19 +00:00
三洋三洋
ebac28a90d tmp commit 2024-01-31 10:44:41 +00:00
三洋三洋
1fba652766 Initial Commit 2024-01-31 10:11:07 +00:00
三洋三洋
b7bf5c444f 加入和推理和评估的代码 2024-01-30 08:36:23 +00:00
三洋三洋
c6d5c91955 写完了模型代码、Tokenizer、数据预处理、训练脚本,但目前的训练脚本没有配置generate(评估仅能看loss) 2024-01-28 06:19:23 +00:00
三洋三洋
9d27ee0585 写好了ocr_model训练脚本的大致框架 2024-01-23 04:23:08 +00:00