src/server.py

import sys
import argparse
import tempfile
import time
import numpy as np
import cv2

from pathlib import Path
from starlette.requests import Request
from ray import serve
from ray.serve.handle import DeploymentHandle
from onnxruntime import InferenceSession

from models.ocr_model.utils.inference import inference as rec_inference
from models.det_model.inference import predict as det_inference
from models.ocr_model.model.TexTeller import TexTeller
from models.det_model.inference import PredictConfig
from models.ocr_model.utils.to_katex import to_katex


PYTHON_VERSION = str(sys.version_info.major) + '.' + str(sys.version_info.minor)
LIBPATH = Path(sys.executable).parent.parent / 'lib' / ('python' + PYTHON_VERSION) / 'site-packages'
CUDNNPATH = LIBPATH / 'nvidia' / 'cudnn' / 'lib'

parser = argparse.ArgumentParser()
parser.add_argument(
    '-ckpt', '--checkpoint_dir', type=str
)
parser.add_argument(
    '-tknz', '--tokenizer_dir', type=str
)
parser.add_argument('-port', '--server_port', type=int, default=8000)
parser.add_argument('--num_replicas', type=int, default=1)
parser.add_argument('--ncpu_per_replica', type=float, default=1.0)
parser.add_argument('--ngpu_per_replica', type=float, default=0.0)

parser.add_argument('--inference-mode', type=str, default='cpu')
parser.add_argument('--num_beams', type=int, default=1)
parser.add_argument('-onnx', action='store_true', help='using onnx runtime')

args = parser.parse_args()
if args.ngpu_per_replica > 0 and not args.inference_mode == 'cuda':
    raise ValueError("--inference-mode must be cuda or mps if ngpu_per_replica > 0")
    

@serve.deployment(
    num_replicas=args.num_replicas, 
    ray_actor_options={
        "num_cpus": args.ncpu_per_replica, 
        "num_gpus": args.ngpu_per_replica * 1.0 / 2
    }
)
class TexTellerRecServer:
    def __init__(
        self, 
        checkpoint_path: str, 
        tokenizer_path: str, 
        inf_mode: str = 'cpu',
        use_onnx: bool = False,
        num_beams: int = 1
    ) -> None:
        self.model = TexTeller.from_pretrained(checkpoint_path, use_onnx=use_onnx, onnx_provider=inf_mode)
        self.tokenizer = TexTeller.get_tokenizer(tokenizer_path)
        self.inf_mode = inf_mode
        self.num_beams = num_beams

        if not use_onnx:
            self.model = self.model.to(inf_mode) if inf_mode != 'cpu' else self.model
    
    def predict(self, image_nparray) -> str:
        return to_katex(rec_inference(
            self.model, self.tokenizer, [image_nparray],
            accelerator=self.inf_mode, num_beams=self.num_beams
        )[0])

@serve.deployment(
    num_replicas=args.num_replicas, 
    ray_actor_options={
        "num_cpus": args.ncpu_per_replica, 
        "num_gpus": args.ngpu_per_replica * 1.0 / 2,
        "runtime_env": {
            "env_vars": {
                "LD_LIBRARY_PATH": f"{str(CUDNNPATH)}/:$LD_LIBRARY_PATH"
            }
        }
    },
)
class TexTellerDetServer:
    def __init__(
        self,
        inf_mode='cpu'
    ):
        self.infer_config = PredictConfig("./models/det_model/model/infer_cfg.yml")
        self.latex_det_model = InferenceSession(
            "./models/det_model/model/rtdetr_r50vd_6x_coco.onnx", 
            providers=['CUDAExecutionProvider'] if inf_mode == 'cuda' else ['CPUExecutionProvider']
        )

    async def predict(self, image_nparray) -> str:
        with tempfile.TemporaryDirectory() as temp_dir:
            img_path = f"{temp_dir}/temp_image.jpg"
            cv2.imwrite(img_path, image_nparray)
            
            latex_bboxes = det_inference(img_path, self.latex_det_model, self.infer_config)
            return latex_bboxes


@serve.deployment()
class Ingress:
    def __init__(self, det_server: DeploymentHandle, rec_server: DeploymentHandle) -> None:
        self.det_server = det_server
        self.texteller_server = rec_server
    
    async def __call__(self, request: Request) -> str:
        request_path = request.url.path
        form   = await request.form()
        img_rb = await form['img'].read()

        img_nparray = np.frombuffer(img_rb, np.uint8)
        img_nparray = cv2.imdecode(img_nparray, cv2.IMREAD_COLOR)
        img_nparray = cv2.cvtColor(img_nparray, cv2.COLOR_BGR2RGB)

        if request_path.startswith("/fdet"):
            if self.det_server == None:
                return "[ERROR] rtdetr_r50vd_6x_coco.onnx not found."
            pred = await self.det_server.predict.remote(img_nparray)
            return pred

        elif request_path.startswith("/frec"):
            pred = await self.texteller_server.predict.remote(img_nparray)
            return pred

        else:
            return "[ERROR] Invalid request path"


if __name__ == '__main__':
    ckpt_dir = args.checkpoint_dir
    tknz_dir = args.tokenizer_dir

    serve.start(http_options={"host": "0.0.0.0", "port": args.server_port})
    rec_server = TexTellerRecServer.bind(
        ckpt_dir, tknz_dir, 
        inf_mode=args.inference_mode,
        use_onnx=args.onnx,
        num_beams=args.num_beams
    )
    det_server = None
    if Path('./models/det_model/model/rtdetr_r50vd_6x_coco.onnx').exists():
        det_server = TexTellerDetServer.bind(args.inference_mode)
    ingress = Ingress.bind(det_server, rec_server)

    # ingress_handle = serve.run(ingress, route_prefix="/predict")  
    ingress_handle = serve.run(ingress, route_prefix="/") 

    while True:
        time.sleep(1)
Support onnx runtime 2024-06-22 21:51:51 +08:00			`import sys`
Initial commit 2024-02-11 08:06:50 +00:00			`import argparse`
Add formula detection service 2024-06-17 21:03:08 +08:00			`import tempfile`
Initial commit 2024-02-11 08:06:50 +00:00			`import time`
updated API usage (supports remote calls) 2024-02-27 07:13:36 +00:00			`import numpy as np`
			`import cv2`
Initial commit 2024-02-11 08:06:50 +00:00
Add formula detection service 2024-06-17 21:03:08 +08:00			`from pathlib import Path`
Initial commit 2024-02-11 08:06:50 +00:00			`from starlette.requests import Request`
			`from ray import serve`
			`from ray.serve.handle import DeploymentHandle`
Add formula detection service 2024-06-17 21:03:08 +08:00			`from onnxruntime import InferenceSession`
Initial commit 2024-02-11 08:06:50 +00:00
Add formula detection service 2024-06-17 21:03:08 +08:00			`from models.ocr_model.utils.inference import inference as rec_inference`
			`from models.det_model.inference import predict as det_inference`
Initial commit 2024-02-11 08:06:50 +00:00			`from models.ocr_model.model.TexTeller import TexTeller`
Add formula detection service 2024-06-17 21:03:08 +08:00			`from models.det_model.inference import PredictConfig`
Update server.py 1. Change the default host address to 0.0.0.0. 2. Convert the output to KaTeX. 2024-06-07 11:47:53 +00:00			`from models.ocr_model.utils.to_katex import to_katex`
Initial commit 2024-02-11 08:06:50 +00:00

Support onnx runtime 2024-06-22 21:51:51 +08:00			`PYTHON_VERSION = str(sys.version_info.major) + '.' + str(sys.version_info.minor)`
			`LIBPATH = Path(sys.executable).parent.parent / 'lib' / ('python' + PYTHON_VERSION) / 'site-packages'`
			`CUDNNPATH = LIBPATH / 'nvidia' / 'cudnn' / 'lib'`

Initial commit 2024-02-11 08:06:50 +00:00			`parser = argparse.ArgumentParser()`
			`parser.add_argument(`
			`'-ckpt', '--checkpoint_dir', type=str`
			`)`
			`parser.add_argument(`
			`'-tknz', '--tokenizer_dir', type=str`
			`)`
			`parser.add_argument('-port', '--server_port', type=int, default=8000)`
			`parser.add_argument('--num_replicas', type=int, default=1)`
			`parser.add_argument('--ncpu_per_replica', type=float, default=1.0)`
			`parser.add_argument('--ngpu_per_replica', type=float, default=0.0)`

前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`parser.add_argument('--inference-mode', type=str, default='cpu')`
			`parser.add_argument('--num_beams', type=int, default=1)`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`parser.add_argument('-onnx', action='store_true', help='using onnx runtime')`
Initial commit 2024-02-11 08:06:50 +00:00
			`args = parser.parse_args()`
Update server.py 1. Change the default host address to 0.0.0.0. 2. Convert the output to KaTeX. 2024-06-07 11:47:53 +00:00			`if args.ngpu_per_replica > 0 and not args.inference_mode == 'cuda':`
			`raise ValueError("--inference-mode must be cuda or mps if ngpu_per_replica > 0")`
Initial commit 2024-02-11 08:06:50 +00:00

			`@serve.deployment(`
			`num_replicas=args.num_replicas,`
			`ray_actor_options={`
			`"num_cpus": args.ncpu_per_replica,`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`"num_gpus": args.ngpu_per_replica * 1.0 / 2`
Initial commit 2024-02-11 08:06:50 +00:00			`}`
			`)`
Add formula detection service 2024-06-17 21:03:08 +08:00			`class TexTellerRecServer:`
Initial commit 2024-02-11 08:06:50 +00:00			`def __init__(`
			`self,`
			`checkpoint_path: str,`
			`tokenizer_path: str,`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`inf_mode: str = 'cpu',`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`use_onnx: bool = False,`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`num_beams: int = 1`
Initial commit 2024-02-11 08:06:50 +00:00			`) -> None:`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`self.model = TexTeller.from_pretrained(checkpoint_path, use_onnx=use_onnx, onnx_provider=inf_mode)`
Initial commit 2024-02-11 08:06:50 +00:00			`self.tokenizer = TexTeller.get_tokenizer(tokenizer_path)`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`self.inf_mode = inf_mode`
			`self.num_beams = num_beams`
Initial commit 2024-02-11 08:06:50 +00:00
Support onnx runtime 2024-06-22 21:51:51 +08:00			`if not use_onnx:`
			`self.model = self.model.to(inf_mode) if inf_mode != 'cpu' else self.model`
Initial commit 2024-02-11 08:06:50 +00:00
updated API usage (supports remote calls) 2024-02-27 07:13:36 +00:00			`def predict(self, image_nparray) -> str:`
Add formula detection service 2024-06-17 21:03:08 +08:00			`return to_katex(rec_inference(`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`self.model, self.tokenizer, [image_nparray],`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`accelerator=self.inf_mode, num_beams=self.num_beams`
Update server.py 1. Change the default host address to 0.0.0.0. 2. Convert the output to KaTeX. 2024-06-07 11:47:53 +00:00			`)[0])`
Initial commit 2024-02-11 08:06:50 +00:00
Support onnx runtime 2024-06-22 21:51:51 +08:00			`@serve.deployment(`
			`num_replicas=args.num_replicas,`
			`ray_actor_options={`
			`"num_cpus": args.ncpu_per_replica,`
			`"num_gpus": args.ngpu_per_replica * 1.0 / 2,`
			`"runtime_env": {`
			`"env_vars": {`
			`"LD_LIBRARY_PATH": f"{str(CUDNNPATH)}/:$LD_LIBRARY_PATH"`
			`}`
			`}`
			`},`
			`)`
Add formula detection service 2024-06-17 21:03:08 +08:00			`class TexTellerDetServer:`
			`def __init__(`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`self,`
			`inf_mode='cpu'`
Add formula detection service 2024-06-17 21:03:08 +08:00			`):`
			`self.infer_config = PredictConfig("./models/det_model/model/infer_cfg.yml")`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`self.latex_det_model = InferenceSession(`
			`"./models/det_model/model/rtdetr_r50vd_6x_coco.onnx",`
			`providers=['CUDAExecutionProvider'] if inf_mode == 'cuda' else ['CPUExecutionProvider']`
			`)`
Add formula detection service 2024-06-17 21:03:08 +08:00
			`async def predict(self, image_nparray) -> str:`
			`with tempfile.TemporaryDirectory() as temp_dir:`
			`img_path = f"{temp_dir}/temp_image.jpg"`
			`cv2.imwrite(img_path, image_nparray)`

			`latex_bboxes = det_inference(img_path, self.latex_det_model, self.infer_config)`
			`return latex_bboxes`


Initial commit 2024-02-11 08:06:50 +00:00			`@serve.deployment()`
			`class Ingress:`
Add formula detection service 2024-06-17 21:03:08 +08:00			`def __init__(self, det_server: DeploymentHandle, rec_server: DeploymentHandle) -> None:`
			`self.det_server = det_server`
			`self.texteller_server = rec_server`
Initial commit 2024-02-11 08:06:50 +00:00
			`async def __call__(self, request: Request) -> str:`
Add formula detection service 2024-06-17 21:03:08 +08:00			`request_path = request.url.path`
updated API usage (supports remote calls) 2024-02-27 07:13:36 +00:00			`form = await request.form()`
			`img_rb = await form['img'].read()`

			`img_nparray = np.frombuffer(img_rb, np.uint8)`
update 2024-02-27 07:44:35 +00:00			`img_nparray = cv2.imdecode(img_nparray, cv2.IMREAD_COLOR)`
updated API usage (supports remote calls) 2024-02-27 07:13:36 +00:00			`img_nparray = cv2.cvtColor(img_nparray, cv2.COLOR_BGR2RGB)`
Add formula detection service 2024-06-17 21:03:08 +08:00
			`if request_path.startswith("/fdet"):`
			`if self.det_server == None:`
			`return "[ERROR] rtdetr_r50vd_6x_coco.onnx not found."`
			`pred = await self.det_server.predict.remote(img_nparray)`
			`return pred`

			`elif request_path.startswith("/frec"):`
			`pred = await self.texteller_server.predict.remote(img_nparray)`
			`return pred`

			`else:`
			`return "[ERROR] Invalid request path"`
Initial commit 2024-02-11 08:06:50 +00:00

			`if __name__ == '__main__':`
			`ckpt_dir = args.checkpoint_dir`
			`tknz_dir = args.tokenizer_dir`

Update server.py 1. Change the default host address to 0.0.0.0. 2. Convert the output to KaTeX. 2024-06-07 11:47:53 +00:00			`serve.start(http_options={"host": "0.0.0.0", "port": args.server_port})`
Add formula detection service 2024-06-17 21:03:08 +08:00			`rec_server = TexTellerRecServer.bind(`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`ckpt_dir, tknz_dir,`
			`inf_mode=args.inference_mode,`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`use_onnx=args.onnx,`
前端更新, inference.py更新 1) 前端支持剪贴板粘贴图片. 2) 前端支持模型配置. 3) 修改了inference.py的接口. 4) 删除了不必要的文件 2024-04-17 09:12:07 +00:00			`num_beams=args.num_beams`
			`)`
Add formula detection service 2024-06-17 21:03:08 +08:00			`det_server = None`
			`if Path('./models/det_model/model/rtdetr_r50vd_6x_coco.onnx').exists():`
Support onnx runtime 2024-06-22 21:51:51 +08:00			`det_server = TexTellerDetServer.bind(args.inference_mode)`
Add formula detection service 2024-06-17 21:03:08 +08:00			`ingress = Ingress.bind(det_server, rec_server)`
Initial commit 2024-02-11 08:06:50 +00:00
Add formula detection service 2024-06-17 21:03:08 +08:00			`# ingress_handle = serve.run(ingress, route_prefix="/predict")`
			`ingress_handle = serve.run(ingress, route_prefix="/")`
Initial commit 2024-02-11 08:06:50 +00:00
			`while True:`
			`time.sleep(1)`