texteller/inference.py

import os
import argparse
import cv2 as cv

from pathlib import Path
from onnxruntime import InferenceSession
from models.thrid_party.paddleocr.infer import predict_det, predict_rec
from models.thrid_party.paddleocr.infer import utility

from models.utils import mix_inference
from models.ocr_model.utils.to_katex import to_katex
from models.ocr_model.utils.inference import inference as latex_inference

from models.ocr_model.model.TexTeller import TexTeller
from models.det_model.inference import PredictConfig


if __name__ == '__main__':
    os.chdir(Path(__file__).resolve().parent)
    parser = argparse.ArgumentParser()
    parser.add_argument('-img', type=str, required=True, help='path to the input image')
    parser.add_argument(
        '--inference-mode',
        type=str,
        default='cpu',
        help='Inference mode, select one of cpu, cuda, or mps',
    )
    parser.add_argument(
        '--num-beam', type=int, default=1, help='number of beam search for decoding'
    )
    parser.add_argument('-mix', action='store_true', help='use mix mode')

    args = parser.parse_args()

    # You can use your own checkpoint and tokenizer path.
    print('Loading model and tokenizer...')
    latex_rec_model = TexTeller.from_pretrained()
    tokenizer = TexTeller.get_tokenizer()
    print('Model and tokenizer loaded.')

    img_path = args.img
    img = cv.imread(img_path)
    print('Inference...')
    if not args.mix:
        res = latex_inference(latex_rec_model, tokenizer, [img], args.inference_mode, args.num_beam)
        res = to_katex(res[0])
        print(res)
    else:
        infer_config = PredictConfig("./models/det_model/model/infer_cfg.yml")
        latex_det_model = InferenceSession("./models/det_model/model/rtdetr_r50vd_6x_coco.onnx")

        use_gpu = args.inference_mode == 'cuda'
        SIZE_LIMIT = 20 * 1024 * 1024
        det_model_dir = "./models/thrid_party/paddleocr/checkpoints/det/default_model.onnx"
        rec_model_dir = "./models/thrid_party/paddleocr/checkpoints/rec/default_model.onnx"
        # The CPU inference of the detection model will be faster than the GPU inference (in onnxruntime)
        det_use_gpu = False
        rec_use_gpu = use_gpu and not (os.path.getsize(rec_model_dir) < SIZE_LIMIT)

        paddleocr_args = utility.parse_args()
        paddleocr_args.use_onnx = True
        paddleocr_args.det_model_dir = det_model_dir
        paddleocr_args.rec_model_dir = rec_model_dir

        paddleocr_args.use_gpu = det_use_gpu
        detector = predict_det.TextDetector(paddleocr_args)
        paddleocr_args.use_gpu = rec_use_gpu
        recognizer = predict_rec.TextRecognizer(paddleocr_args)

        lang_ocr_models = [detector, recognizer]
        latex_rec_models = [latex_rec_model, tokenizer]
        res = mix_inference(
            img_path,
            infer_config,
            latex_det_model,
            lang_ocr_models,
            latex_rec_models,
            args.inference_mode,
            args.num_beam,
        )
        print(res)
Initial commit 2024-02-11 08:06:50 +00:00			`import os`
			`import argparse`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`import cv2 as cv`
Initial commit 2024-02-11 08:06:50 +00:00
			`from pathlib import Path`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`from onnxruntime import InferenceSession`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`from models.thrid_party.paddleocr.infer import predict_det, predict_rec`
			`from models.thrid_party.paddleocr.infer import utility`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
			`from models.utils import mix_inference`
			`from models.ocr_model.utils.to_katex import to_katex`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`from models.ocr_model.utils.inference import inference as latex_inference`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
Initial commit 2024-02-11 08:06:50 +00:00			`from models.ocr_model.model.TexTeller import TexTeller`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`from models.det_model.inference import PredictConfig`

Initial commit 2024-02-11 08:06:50 +00:00
			`if __name__ == '__main__':`
			`os.chdir(Path(__file__).resolve().parent)`
			`parser = argparse.ArgumentParser()`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`parser.add_argument('-img', type=str, required=True, help='path to the input image')`
Initial commit 2024-02-11 08:06:50 +00:00			`parser.add_argument(`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`'--inference-mode',`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`type=str,`
			`default='cpu',`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`help='Inference mode, select one of cpu, cuda, or mps',`
Initial commit 2024-02-11 08:06:50 +00:00			`)`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`parser.add_argument(`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`'--num-beam', type=int, default=1, help='number of beam search for decoding'`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`)`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`parser.add_argument('-mix', action='store_true', help='use mix mode')`

Initial commit 2024-02-11 08:06:50 +00:00			`args = parser.parse_args()`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00
Initial commit 2024-02-11 08:06:50 +00:00			`# You can use your own checkpoint and tokenizer path.`
			`print('Loading model and tokenizer...')`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`latex_rec_model = TexTeller.from_pretrained()`
Initial commit 2024-02-11 08:06:50 +00:00			`tokenizer = TexTeller.get_tokenizer()`
			`print('Model and tokenizer loaded.')`

1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`img_path = args.img`
			`img = cv.imread(img_path)`
Initial commit 2024-02-11 08:06:50 +00:00			`print('Inference...')`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`if not args.mix:`
Merge branch 'pre_release' into dev 2024-04-17 10:30:09 +00:00			`res = latex_inference(latex_rec_model, tokenizer, [img], args.inference_mode, args.num_beam)`
inference.py支持katex语法 2024-04-06 10:09:15 +00:00			`res = to_katex(res[0])`
			`print(res)`
修改了v3(支持自然场景、混合文字场景识别)版本的inference.py模版 2024-04-05 07:25:06 +00:00			`else:`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`infer_config = PredictConfig("./models/det_model/model/infer_cfg.yml")`
bugfix inference.py 2024-05-07 13:19:43 +08:00			`latex_det_model = InferenceSession("./models/det_model/model/rtdetr_r50vd_6x_coco.onnx")`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
Update inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:22:01 +08:00			`use_gpu = args.inference_mode == 'cuda'`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`SIZE_LIMIT = 20 * 1024 * 1024`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`det_model_dir = "./models/thrid_party/paddleocr/checkpoints/det/default_model.onnx"`
			`rec_model_dir = "./models/thrid_party/paddleocr/checkpoints/rec/default_model.onnx"`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`# The CPU inference of the detection model will be faster than the GPU inference (in onnxruntime)`
			`det_use_gpu = False`
			`rec_use_gpu = use_gpu and not (os.path.getsize(rec_model_dir) < SIZE_LIMIT)`

			`paddleocr_args = utility.parse_args()`
			`paddleocr_args.use_onnx = True`
			`paddleocr_args.det_model_dir = det_model_dir`
			`paddleocr_args.rec_model_dir = rec_model_dir`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`paddleocr_args.use_gpu = det_use_gpu`
			`detector = predict_det.TextDetector(paddleocr_args)`
			`paddleocr_args.use_gpu = rec_use_gpu`
			`recognizer = predict_rec.TextRecognizer(paddleocr_args)`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00
Update inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:22:01 +08:00			`lang_ocr_models = [detector, recognizer]`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`latex_rec_models = [latex_rec_model, tokenizer]`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`res = mix_inference(`
			`img_path,`
			`infer_config,`
			`latex_det_model,`
			`lang_ocr_models,`
			`latex_rec_models,`
			`args.inference_mode,`
			`args.num_beam,`
			`)`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`print(res)`