三洋三洋
|
dbf35fe9c4
|
初步修改完成,但仍然有问题
|
2024-03-27 04:54:49 +00:00 |
|
三洋三洋
|
6373e19132
|
merge v2
|
2024-03-26 08:16:28 +00:00 |
|
三洋三洋
|
b293026f5e
|
数据增强加入了是否只针对扫描件的选项
|
2024-03-26 07:37:48 +00:00 |
|
三洋三洋
|
63b8e04dab
|
TexTellerv2 release
|
2024-03-25 13:22:11 +00:00 |
|
三洋三洋
|
ef7cccff03
|
TexTellerv2
|
2024-03-25 11:46:43 +00:00 |
|
OleehyO
|
14b637cd6b
|
Update README_zh.md
|
2024-03-25 16:35:34 +08:00 |
|
OleehyO
|
86443d0cf7
|
Update README_zh.md
|
2024-03-25 16:35:34 +08:00 |
|
OleehyO
|
88d2730752
|
Update README.md
|
2024-03-25 16:34:46 +08:00 |
|
三洋三洋
|
3f4b3c9645
|
update
|
2024-03-25 08:32:17 +00:00 |
|
三洋三洋
|
5e191ff0fe
|
update
|
2024-03-25 07:53:11 +00:00 |
|
三洋三洋
|
9c3bb1c22a
|
update mp4
|
2024-03-25 07:32:33 +00:00 |
|
三洋三洋
|
ef218d67f6
|
TexTeller v2
|
2024-03-25 07:11:10 +00:00 |
|
三洋三洋
|
74341c7e8a
|
update
|
2024-03-19 14:43:03 +00:00 |
|
三洋三洋
|
a42df1510f
|
完成了TexTellerv2的训练(不支持自然场景)
|
2024-03-13 02:21:02 +00:00 |
|
三洋三洋
|
93979bddf6
|
修复了bug:当样本中出现非常长的公式(对应的token数可能超过2048),会导致给label进行embedding时index out of range
|
2024-03-06 13:59:36 +00:00 |
|
三洋三洋
|
a65de1154e
|
完成了7M数据集tokenizer的训练
|
2024-03-06 04:57:43 +00:00 |
|
三洋三洋
|
04a4bddd97
|
修改了functional.py中的tokenize_fn(图片以png形式而非数组的形式保存,防止占用过多硬盘空间)
|
2024-03-04 05:38:30 +00:00 |
|
三洋三洋
|
2d6c46b88d
|
修改好了训练,加入了数据增强
|
2024-03-04 05:35:59 +00:00 |
|
三洋三洋
|
38877d90b8
|
完成了load1) er.py, 以 2) 部分代码的loader加载路径的更改
|
2024-03-03 15:59:15 +00:00 |
|
三洋三洋
|
69b10eccc7
|
update
|
2024-03-03 12:33:17 +00:00 |
|
三洋三洋
|
5d089b5a7f
|
update
|
2024-03-03 12:09:14 +08:00 |
|
三洋三洋
|
d9ee6b0d9e
|
update
|
2024-03-01 22:42:15 +08:00 |
|
三洋三洋
|
2d21d2d215
|
update
|
2024-02-27 07:44:35 +00:00 |
|
三洋三洋
|
3527a4af47
|
updated API usage (supports remote calls)
|
2024-02-27 07:13:36 +00:00 |
|
三洋三洋
|
b4537944d0
|
Update README_zh.md
|
2024-02-12 16:33:49 +00:00 |
|
三洋三洋
|
72a60f8611
|
Update README
|
2024-02-12 16:27:58 +00:00 |
|
三洋三洋
|
3683623925
|
Update README_zh.md
|
2024-02-12 15:02:31 +00:00 |
|
三洋三洋
|
94b0781d84
|
Update README
|
2024-02-12 11:46:26 +00:00 |
|
三洋三洋
|
9bc165f955
|
Update files
|
2024-02-12 11:40:51 +00:00 |
|
三洋三洋
|
fa6bcda721
|
update README
|
2024-02-12 08:44:45 +00:00 |
|
三洋三洋
|
6e2e45a8d6
|
update README
|
2024-02-12 08:41:33 +00:00 |
|
三洋三洋
|
b4962bfa98
|
Initial commit
|
2024-02-11 10:44:42 +00:00 |
|
三洋三洋
|
f057490bdb
|
Initial commit
|
2024-02-11 09:14:40 +00:00 |
|
三洋三洋
|
04b99b8451
|
完成了web,ray server,重构了代码
|
2024-02-08 13:55:22 +00:00 |
|
三洋三洋
|
07c4c3dc01
|
完成了训练
|
2024-02-07 12:18:23 +00:00 |
|
三洋三洋
|
b5dbf64716
|
把代码修改成了接受输入为png的图片
|
2024-02-03 09:40:13 +00:00 |
|
三洋三洋
|
274fd6cdda
|
加入了输入图片的最小宽和高的过滤,防止注入垃圾数据
|
2024-02-02 05:41:49 +00:00 |
|
三洋三洋
|
ab1a05bf32
|
完成了所有代码
|
2024-02-02 04:50:19 +00:00 |
|
三洋三洋
|
ebac28a90d
|
tmp commit
|
2024-01-31 10:44:41 +00:00 |
|
三洋三洋
|
1fba652766
|
Initial Commit
|
2024-01-31 10:11:07 +00:00 |
|
三洋三洋
|
b7bf5c444f
|
加入和推理和评估的代码
|
2024-01-30 08:36:23 +00:00 |
|
三洋三洋
|
e03b877ed1
|
Merge branch 'add_ocr_model'
|
2024-01-28 14:04:52 +00:00 |
|
三洋三洋
|
14125da26f
|
1) 加入了推理代码; 2) 整理了其他代码
|
2024-01-28 14:03:42 +00:00 |
|
三洋三洋
|
c6d5c91955
|
写完了模型代码、Tokenizer、数据预处理、训练脚本,但目前的训练脚本没有配置generate(评估仅能看loss)
|
2024-01-28 06:19:23 +00:00 |
|
三洋三洋
|
0f619b1812
|
删除了resiezer中inference.py里面无用的代码
|
2024-01-23 06:07:09 +00:00 |
|
三洋三洋
|
9d27ee0585
|
写好了ocr_model训练脚本的大致框架
|
2024-01-23 04:23:08 +00:00 |
|
三洋三洋
|
703ac7441c
|
加入了web.py,但是server还没实现
|
2024-01-22 09:49:09 +00:00 |
|
三洋三洋
|
126026cb48
|
Initial commit
|
2024-01-19 13:53:01 +00:00 |
|