texteller/models/utils/mix_inference.py

import re
import heapq
import cv2
import time
import numpy as np

from collections import Counter
from typing import List
from PIL import Image

from ..det_model.inference import predict as latex_det_predict
from ..det_model.Bbox import Bbox, draw_bboxes

from ..ocr_model.utils.inference import inference as latex_rec_predict
from ..ocr_model.utils.to_katex import to_katex, change_all

MAXV = 999999999


def mask_img(img, bboxes: List[Bbox], bg_color: np.ndarray) -> np.ndarray:
    mask_img = img.copy()
    for bbox in bboxes:
        mask_img[bbox.p.y : bbox.p.y + bbox.h, bbox.p.x : bbox.p.x + bbox.w] = bg_color
    return mask_img


def bbox_merge(sorted_bboxes: List[Bbox]) -> List[Bbox]:
    if len(sorted_bboxes) == 0:
        return []
    bboxes = sorted_bboxes.copy()
    guard = Bbox(MAXV, bboxes[-1].p.y, -1, -1, label="guard")
    bboxes.append(guard)
    res = []
    prev = bboxes[0]
    for curr in bboxes:
        if prev.ur_point.x <= curr.p.x or not prev.same_row(curr):
            res.append(prev)
            prev = curr
        else:
            prev.w = max(prev.w, curr.ur_point.x - prev.p.x)
    return res


def split_conflict(ocr_bboxes: List[Bbox], latex_bboxes: List[Bbox]) -> List[Bbox]:
    if latex_bboxes == []:
        return ocr_bboxes
    if ocr_bboxes == [] or len(ocr_bboxes) == 1:
        return ocr_bboxes

    bboxes = sorted(ocr_bboxes + latex_bboxes)

    # log results
    for idx, bbox in enumerate(bboxes):
        bbox.content = str(idx)
    draw_bboxes(Image.fromarray(img), bboxes, name="before_split_confict.png")

    assert len(bboxes) > 1

    heapq.heapify(bboxes)
    res = []
    candidate = heapq.heappop(bboxes)
    curr = heapq.heappop(bboxes)
    idx = 0
    while len(bboxes) > 0:
        idx += 1
        assert candidate.p.x <= curr.p.x or not candidate.same_row(curr)

        if candidate.ur_point.x <= curr.p.x or not candidate.same_row(curr):
            res.append(candidate)
            candidate = curr
            curr = heapq.heappop(bboxes)
        elif candidate.ur_point.x < curr.ur_point.x:
            assert not (candidate.label != "text" and curr.label != "text")
            if candidate.label == "text" and curr.label == "text":
                candidate.w = curr.ur_point.x - candidate.p.x
                curr = heapq.heappop(bboxes)
            elif candidate.label != curr.label:
                if candidate.label == "text":
                    candidate.w = curr.p.x - candidate.p.x
                    res.append(candidate)
                    candidate = curr
                    curr = heapq.heappop(bboxes)
                else:
                    curr.w = curr.ur_point.x - candidate.ur_point.x
                    curr.p.x = candidate.ur_point.x
                    heapq.heappush(bboxes, curr)
                    curr = heapq.heappop(bboxes)

        elif candidate.ur_point.x >= curr.ur_point.x:
            assert not (candidate.label != "text" and curr.label != "text")

            if candidate.label == "text":
                assert curr.label != "text"
                heapq.heappush(
                    bboxes,
                    Bbox(
                        curr.ur_point.x,
                        candidate.p.y,
                        candidate.h,
                        candidate.ur_point.x - curr.ur_point.x,
                        label="text",
                        confidence=candidate.confidence,
                        content=None,
                    ),
                )
                candidate.w = curr.p.x - candidate.p.x
                res.append(candidate)
                candidate = curr
                curr = heapq.heappop(bboxes)
            else:
                assert curr.label == "text"
                curr = heapq.heappop(bboxes)
        else:
            assert False
    res.append(candidate)
    res.append(curr)

    # log results
    for idx, bbox in enumerate(res):
        bbox.content = str(idx)
    draw_bboxes(Image.fromarray(img), res, name="after_split_confict.png")

    return res


def slice_from_image(img: np.ndarray, ocr_bboxes: List[Bbox]) -> List[np.ndarray]:
    sliced_imgs = []
    for bbox in ocr_bboxes:
        x, y = int(bbox.p.x), int(bbox.p.y)
        w, h = int(bbox.w), int(bbox.h)
        sliced_img = img[y : y + h, x : x + w]
        sliced_imgs.append(sliced_img)
    return sliced_imgs


def mix_inference(
    img_path: str,
    infer_config,
    latex_det_model,
    lang_ocr_models,
    latex_rec_models,
    accelerator="cpu",
    num_beams=1,
) -> str:
    '''
    Input a mixed image of formula text and output str (in markdown syntax)
    '''
    global img
    img = cv2.imread(img_path)
    corners = [tuple(img[0, 0]), tuple(img[0, -1]), tuple(img[-1, 0]), tuple(img[-1, -1])]
    bg_color = np.array(Counter(corners).most_common(1)[0][0])

    start_time = time.time()
    latex_bboxes = latex_det_predict(img_path, latex_det_model, infer_config)
    end_time = time.time()
    print(f"latex_det_model time: {end_time - start_time:.2f}s")
    latex_bboxes = sorted(latex_bboxes)
    # log results
    draw_bboxes(Image.fromarray(img), latex_bboxes, name="latex_bboxes(unmerged).png")
    latex_bboxes = bbox_merge(latex_bboxes)
    # log results
    draw_bboxes(Image.fromarray(img), latex_bboxes, name="latex_bboxes(merged).png")
    masked_img = mask_img(img, latex_bboxes, bg_color)

    det_model, rec_model = lang_ocr_models
    start_time = time.time()
    det_prediction, _ = det_model(masked_img)
    end_time = time.time()
    print(f"ocr_det_model time: {end_time - start_time:.2f}s")
    ocr_bboxes = [
        Bbox(
            p[0][0],
            p[0][1],
            p[3][1] - p[0][1],
            p[1][0] - p[0][0],
            label="text",
            confidence=None,
            content=None,
        )
        for p in det_prediction
    ]
    # log results
    draw_bboxes(Image.fromarray(img), ocr_bboxes, name="ocr_bboxes(unmerged).png")

    ocr_bboxes = sorted(ocr_bboxes)
    ocr_bboxes = bbox_merge(ocr_bboxes)
    # log results
    draw_bboxes(Image.fromarray(img), ocr_bboxes, name="ocr_bboxes(merged).png")
    ocr_bboxes = split_conflict(ocr_bboxes, latex_bboxes)
    ocr_bboxes = list(filter(lambda x: x.label == "text", ocr_bboxes))

    sliced_imgs: List[np.ndarray] = slice_from_image(img, ocr_bboxes)
    start_time = time.time()
    rec_predictions, _ = rec_model(sliced_imgs)
    end_time = time.time()
    print(f"ocr_rec_model time: {end_time - start_time:.2f}s")

    assert len(rec_predictions) == len(ocr_bboxes)
    for content, bbox in zip(rec_predictions, ocr_bboxes):
        bbox.content = content[0]

    latex_imgs = []
    for bbox in latex_bboxes:
        latex_imgs.append(img[bbox.p.y : bbox.p.y + bbox.h, bbox.p.x : bbox.p.x + bbox.w])
    start_time = time.time()
    latex_rec_res = latex_rec_predict(
        *latex_rec_models, latex_imgs, accelerator, num_beams, max_tokens=800
    )
    end_time = time.time()
    print(f"latex_rec_model time: {end_time - start_time:.2f}s")

    for bbox, content in zip(latex_bboxes, latex_rec_res):
        bbox.content = to_katex(content)
        if bbox.label == "embedding":
            bbox.content = " $" + bbox.content + "$ "
        elif bbox.label == "isolated":
            bbox.content = '\n\n' + r"$$" + bbox.content + r"$$" + '\n\n'

    bboxes = sorted(ocr_bboxes + latex_bboxes)
    if bboxes == []:
        return ""

    md = ""
    prev = Bbox(bboxes[0].p.x, bboxes[0].p.y, -1, -1, label="guard")
    for curr in bboxes:
        # Add the formula number back to the isolated formula
        if prev.label == "isolated" and curr.label == "text" and prev.same_row(curr):
            curr.content = curr.content.strip()
            if curr.content.startswith('(') and curr.content.endswith(')'):
                curr.content = curr.content[1:-1]

            if re.search(r'\\tag\{.*\}$', md[:-4]) is not None:
                # in case of multiple tag
                md = md[:-5] + f', {curr.content}' + '}' + md[-4:]
            else:
                md = md[:-4] + f'\\tag{{{curr.content}}}' + md[-4:]
            continue

        if not prev.same_row(curr):
            md += " "

        if curr.label == "embedding":
            # remove the bold effect from inline formulas
            curr.content = change_all(curr.content, r'\bm', r' ', r'{', r'}', r'', r' ')
            curr.content = change_all(curr.content, r'\boldsymbol', r' ', r'{', r'}', r'', r' ')
            curr.content = change_all(curr.content, r'\textit', r' ', r'{', r'}', r'', r' ')
            curr.content = change_all(curr.content, r'\textbf', r' ', r'{', r'}', r'', r' ')
            curr.content = change_all(curr.content, r'\textbf', r' ', r'{', r'}', r'', r' ')
            curr.content = change_all(curr.content, r'\mathbf', r' ', r'{', r'}', r'', r' ')

            # change split environment into aligned
            curr.content = curr.content.replace(r'\begin{split}', r'\begin{aligned}')
            curr.content = curr.content.replace(r'\end{split}', r'\end{aligned}')

            # remove extra spaces (keeping only one)
            curr.content = re.sub(r' +', ' ', curr.content)
            assert curr.content.startswith(' $') and curr.content.endswith('$ ')
            curr.content = ' $' + curr.content[2:-2].strip() + '$ '
        md += curr.content
        prev = curr
    return md.strip()
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`import re`
			`import heapq`
			`import cv2`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`import time`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`import numpy as np`

			`from collections import Counter`
			`from typing import List`
			`from PIL import Image`
merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`from ..det_model.inference import predict as latex_det_predict`
			`from ..det_model.Bbox import Bbox, draw_bboxes`

			`from ..ocr_model.utils.inference import inference as latex_rec_predict`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`from ..ocr_model.utils.to_katex import to_katex, change_all`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
			`MAXV = 999999999`


			`def mask_img(img, bboxes: List[Bbox], bg_color: np.ndarray) -> np.ndarray:`
			`mask_img = img.copy()`
			`for bbox in bboxes:`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`mask_img[bbox.p.y : bbox.p.y + bbox.h, bbox.p.x : bbox.p.x + bbox.w] = bg_color`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`return mask_img`


			`def bbox_merge(sorted_bboxes: List[Bbox]) -> List[Bbox]:`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`if len(sorted_bboxes) == 0:`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`return []`
			`bboxes = sorted_bboxes.copy()`
			`guard = Bbox(MAXV, bboxes[-1].p.y, -1, -1, label="guard")`
			`bboxes.append(guard)`
			`res = []`
			`prev = bboxes[0]`
			`for curr in bboxes:`
			`if prev.ur_point.x <= curr.p.x or not prev.same_row(curr):`
			`res.append(prev)`
			`prev = curr`
			`else:`
			`prev.w = max(prev.w, curr.ur_point.x - prev.p.x)`
			`return res`


			`def split_conflict(ocr_bboxes: List[Bbox], latex_bboxes: List[Bbox]) -> List[Bbox]:`
			`if latex_bboxes == []:`
			`return ocr_bboxes`
			`if ocr_bboxes == [] or len(ocr_bboxes) == 1:`
			`return ocr_bboxes`

			`bboxes = sorted(ocr_bboxes + latex_bboxes)`

merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00			`# log results`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`for idx, bbox in enumerate(bboxes):`
			`bbox.content = str(idx)`
			`draw_bboxes(Image.fromarray(img), bboxes, name="before_split_confict.png")`

			`assert len(bboxes) > 1`

			`heapq.heapify(bboxes)`
			`res = []`
			`candidate = heapq.heappop(bboxes)`
			`curr = heapq.heappop(bboxes)`
			`idx = 0`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`while len(bboxes) > 0:`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`idx += 1`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`assert candidate.p.x <= curr.p.x or not candidate.same_row(curr)`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
			`if candidate.ur_point.x <= curr.p.x or not candidate.same_row(curr):`
			`res.append(candidate)`
			`candidate = curr`
			`curr = heapq.heappop(bboxes)`
			`elif candidate.ur_point.x < curr.ur_point.x:`
			`assert not (candidate.label != "text" and curr.label != "text")`
			`if candidate.label == "text" and curr.label == "text":`
			`candidate.w = curr.ur_point.x - candidate.p.x`
			`curr = heapq.heappop(bboxes)`
			`elif candidate.label != curr.label:`
			`if candidate.label == "text":`
			`candidate.w = curr.p.x - candidate.p.x`
			`res.append(candidate)`
			`candidate = curr`
			`curr = heapq.heappop(bboxes)`
			`else:`
			`curr.w = curr.ur_point.x - candidate.ur_point.x`
			`curr.p.x = candidate.ur_point.x`
			`heapq.heappush(bboxes, curr)`
			`curr = heapq.heappop(bboxes)`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`elif candidate.ur_point.x >= curr.ur_point.x:`
			`assert not (candidate.label != "text" and curr.label != "text")`

			`if candidate.label == "text":`
			`assert curr.label != "text"`
			`heapq.heappush(`
			`bboxes,`
			`Bbox(`
			`curr.ur_point.x,`
			`candidate.p.y,`
			`candidate.h,`
			`candidate.ur_point.x - curr.ur_point.x,`
			`label="text",`
			`confidence=candidate.confidence,`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`content=None,`
			`),`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`)`
			`candidate.w = curr.p.x - candidate.p.x`
			`res.append(candidate)`
			`candidate = curr`
			`curr = heapq.heappop(bboxes)`
			`else:`
			`assert curr.label == "text"`
			`curr = heapq.heappop(bboxes)`
			`else:`
			`assert False`
			`res.append(candidate)`
			`res.append(curr)`
merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00
			`# log results`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`for idx, bbox in enumerate(res):`
			`bbox.content = str(idx)`
			`draw_bboxes(Image.fromarray(img), res, name="after_split_confict.png")`
merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`return res`


Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`def slice_from_image(img: np.ndarray, ocr_bboxes: List[Bbox]) -> List[np.ndarray]:`
			`sliced_imgs = []`
			`for bbox in ocr_bboxes:`
			`x, y = int(bbox.p.x), int(bbox.p.y)`
			`w, h = int(bbox.w), int(bbox.h)`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`sliced_img = img[y : y + h, x : x + w]`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`sliced_imgs.append(sliced_img)`
			`return sliced_imgs`


1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`def mix_inference(`
			`img_path: str,`
			`infer_config,`
			`latex_det_model,`
			`lang_ocr_models,`
			`latex_rec_models,`
			`accelerator="cpu",`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`num_beams=1,`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`) -> str:`
			`'''`
			`Input a mixed image of formula text and output str (in markdown syntax)`
			`'''`
			`global img`
			`img = cv2.imread(img_path)`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`corners = [tuple(img[0, 0]), tuple(img[0, -1]), tuple(img[-1, 0]), tuple(img[-1, -1])]`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`bg_color = np.array(Counter(corners).most_common(1)[0][0])`

Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`start_time = time.time()`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`latex_bboxes = latex_det_predict(img_path, latex_det_model, infer_config)`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`end_time = time.time()`
			`print(f"latex_det_model time: {end_time - start_time:.2f}s")`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`latex_bboxes = sorted(latex_bboxes)`
merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00			`# log results`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`draw_bboxes(Image.fromarray(img), latex_bboxes, name="latex_bboxes(unmerged).png")`
			`latex_bboxes = bbox_merge(latex_bboxes)`
merge dev后调整了项目结构 2024-04-21 00:48:24 +08:00			`# log results`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`draw_bboxes(Image.fromarray(img), latex_bboxes, name="latex_bboxes(merged).png")`
			`masked_img = mask_img(img, latex_bboxes, bg_color)`

Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`det_model, rec_model = lang_ocr_models`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`start_time = time.time()`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`det_prediction, _ = det_model(masked_img)`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`end_time = time.time()`
			`print(f"ocr_det_model time: {end_time - start_time:.2f}s")`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`ocr_bboxes = [`
			`Bbox(`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`p[0][0],`
			`p[0][1],`
			`p[3][1] - p[0][1],`
			`p[1][0] - p[0][0],`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`label="text",`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`confidence=None,`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`content=None,`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`)`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`for p in det_prediction`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`]`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`# log results`
			`draw_bboxes(Image.fromarray(img), ocr_bboxes, name="ocr_bboxes(unmerged).png")`

1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`ocr_bboxes = sorted(ocr_bboxes)`
			`ocr_bboxes = bbox_merge(ocr_bboxes)`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00			`# log results`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`draw_bboxes(Image.fromarray(img), ocr_bboxes, name="ocr_bboxes(merged).png")`
			`ocr_bboxes = split_conflict(ocr_bboxes, latex_bboxes)`
			`ocr_bboxes = list(filter(lambda x: x.label == "text", ocr_bboxes))`

Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`sliced_imgs: List[np.ndarray] = slice_from_image(img, ocr_bboxes)`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`start_time = time.time()`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`rec_predictions, _ = rec_model(sliced_imgs)`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`end_time = time.time()`
			`print(f"ocr_rec_model time: {end_time - start_time:.2f}s")`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00
			`assert len(rec_predictions) == len(ocr_bboxes)`
			`for content, bbox in zip(rec_predictions, ocr_bboxes):`
Update mix_inference.py 替换文本OCR模型为paddleocr 2024-05-09 00:23:02 +08:00			`bbox.content = content[0]`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00
			`latex_imgs = []`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`for bbox in latex_bboxes:`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`latex_imgs.append(img[bbox.p.y : bbox.p.y + bbox.h, bbox.p.x : bbox.p.x + bbox.w])`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`start_time = time.time()`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`latex_rec_res = latex_rec_predict(`
			`*latex_rec_models, latex_imgs, accelerator, num_beams, max_tokens=800`
			`)`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`end_time = time.time()`
			`print(f"latex_rec_model time: {end_time - start_time:.2f}s")`
Using paddleocr with onnxruntime Deleted the code for test time. 2024-05-27 17:05:24 +00:00
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`for bbox, content in zip(latex_bboxes, latex_rec_res):`
			`bbox.content = to_katex(content)`
			`if bbox.label == "embedding":`
			`bbox.content = " $" + bbox.content + "$ "`
			`elif bbox.label == "isolated":`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`bbox.content = '\n\n' + r"$$" + bbox.content + r"$$" + '\n\n'`

1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`bboxes = sorted(ocr_bboxes + latex_bboxes)`
			`if bboxes == []:`
			`return ""`

			`md = ""`
			`prev = Bbox(bboxes[0].p.x, bboxes[0].p.y, -1, -1, label="guard")`
			`for curr in bboxes:`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`# Add the formula number back to the isolated formula`
[chore] exclude paddleocr directory from pre-commit hooks 2025-02-28 19:56:49 +08:00			`if prev.label == "isolated" and curr.label == "text" and prev.same_row(curr):`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`curr.content = curr.content.strip()`
			`if curr.content.startswith('(') and curr.content.endswith(')'):`
			`curr.content = curr.content[1:-1]`

			`if re.search(r'\\tag\{.*\}$', md[:-4]) is not None:`
			`# in case of multiple tag`
			`md = md[:-5] + f', {curr.content}' + '}' + md[-4:]`
			`else:`
			`md = md[:-4] + f'\\tag{{{curr.content}}}' + md[-4:]`
			`continue`

			`if not prev.same_row(curr):`
			`md += " "`

			`if curr.label == "embedding":`
			`# remove the bold effect from inline formulas`
			`curr.content = change_all(curr.content, r'\bm', r' ', r'{', r'}', r'', r' ')`
			`curr.content = change_all(curr.content, r'\boldsymbol', r' ', r'{', r'}', r'', r' ')`
			`curr.content = change_all(curr.content, r'\textit', r' ', r'{', r'}', r'', r' ')`
			`curr.content = change_all(curr.content, r'\textbf', r' ', r'{', r'}', r'', r' ')`
			`curr.content = change_all(curr.content, r'\textbf', r' ', r'{', r'}', r'', r' ')`
			`curr.content = change_all(curr.content, r'\mathbf', r' ', r'{', r'}', r'', r' ')`

			`# change split environment into aligned`
			`curr.content = curr.content.replace(r'\begin{split}', r'\begin{aligned}')`
			`curr.content = curr.content.replace(r'\end{split}', r'\end{aligned}')`

			`# remove extra spaces (keeping only one)`
			`curr.content = re.sub(r' +', ' ', curr.content)`
			`assert curr.content.startswith(' $') and curr.content.endswith('$ ')`
			`curr.content = ' $' + curr.content[2:-2].strip() + '$ '`
			`md += curr.content`
1) 实现了文本-公式混排识别; 2) 重构了项目结构 2024-04-21 00:05:14 +08:00			`prev = curr`
Refine mix_inference 1. Add the formula number back to the isolated formula and merge multiple tag. 2. remove bold effect from inline formuals 3. change split environment into aligned 2024-06-04 14:24:23 +00:00			`return md.strip()`