Commit Graph

33 Commits

Author SHA1 Message Date
三洋三洋
f84168a00b 1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
三洋三洋
5a9138026f 修复了merge pre_release分支后导致参数名不一致的bug 2024-04-17 14:47:58 +00:00
三洋三洋
891a9c310a Merge branch 'pre_release' into dev 2024-04-17 10:32:22 +00:00
三洋三洋
b4b9e8cfc4 前端更新, inference.py更新
1) 前端支持剪贴板粘贴图片.
2) 前端支持模型配置.
3) 修改了inference.py的接口.
4) 删除了不必要的文件
2024-04-17 09:36:40 +00:00
三洋三洋
574dcc2842 修改了transforms.py中inference_transform的bug: 在训练的eval阶段没有把png图片转化为np.ndarray 2024-04-11 07:04:58 +00:00
三洋三洋
5c58b88c96 优化了transform.py中的trim_white_border 2024-04-10 16:09:13 +00:00
三洋三洋
aaee57acd2 增加了数据增强的概率 2024-04-09 13:50:35 +00:00
三洋三洋
dd00e11a98 inference_transform bugfix 2024-04-06 05:09:50 +00:00
三洋三洋
e99ca14d59 Merge remote-tracking branch 'origin/dev' into dev 2024-04-05 08:00:11 +00:00
三洋三洋
34ac31504a 修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:27:07 +00:00
三洋三洋
17c92cce37 merge v3_nature_scence 2024-03-28 14:33:25 +00:00
三洋三洋
e8967dce0f 写好了v3版本的训练代码(v3版本加入了自然场景训练增强) 2024-03-28 12:54:00 +00:00
三洋三洋
fb2ab8230d 初步修改完成,但仍然有问题 2024-03-27 06:47:40 +00:00
三洋三洋
dbf35fe9c4 初步修改完成,但仍然有问题 2024-03-27 04:54:49 +00:00
三洋三洋
6373e19132 merge v2 2024-03-26 08:16:28 +00:00
三洋三洋
b293026f5e 数据增强加入了是否只针对扫描件的选项 2024-03-26 07:37:48 +00:00
三洋三洋
ef7cccff03 TexTellerv2 2024-03-25 11:46:43 +00:00
OleehyO
14b637cd6b Update README_zh.md 2024-03-25 16:35:34 +08:00
三洋三洋
93979bddf6 修复了bug:当样本中出现非常长的公式(对应的token数可能超过2048),会导致给label进行embedding时index out of range 2024-03-06 13:59:36 +00:00
三洋三洋
04a4bddd97 修改了functional.py中的tokenize_fn(图片以png形式而非数组的形式保存,防止占用过多硬盘空间) 2024-03-04 05:38:30 +00:00
三洋三洋
2d6c46b88d 修改好了训练,加入了数据增强 2024-03-04 05:35:59 +00:00
三洋三洋
2d21d2d215 update 2024-02-27 07:44:35 +00:00
三洋三洋
3527a4af47 updated API usage (supports remote calls) 2024-02-27 07:13:36 +00:00
三洋三洋
f057490bdb Initial commit 2024-02-11 09:14:40 +00:00
三洋三洋
04b99b8451 完成了web,ray server,重构了代码 2024-02-08 13:55:22 +00:00
三洋三洋
b5dbf64716 把代码修改成了接受输入为png的图片 2024-02-03 09:40:13 +00:00
三洋三洋
ab1a05bf32 完成了所有代码 2024-02-02 04:50:19 +00:00
三洋三洋
ebac28a90d tmp commit 2024-01-31 10:44:41 +00:00
三洋三洋
1fba652766 Initial Commit 2024-01-31 10:11:07 +00:00
三洋三洋
b7bf5c444f 加入和推理和评估的代码 2024-01-30 08:36:23 +00:00
三洋三洋
14125da26f 1) 加入了推理代码; 2) 整理了其他代码 2024-01-28 14:03:42 +00:00
三洋三洋
c6d5c91955 写完了模型代码、Tokenizer、数据预处理、训练脚本,但目前的训练脚本没有配置generate(评估仅能看loss) 2024-01-28 06:19:23 +00:00
三洋三洋
9d27ee0585 写好了ocr_model训练脚本的大致框架 2024-01-23 04:23:08 +00:00