Files

yoge 76f1bde56d feat: add 5 new blog posts (en + zh)

- how-ai-reads-math: plain-English explainer of the recognition pipeline
- student-workflow: lecture-to-LaTeX workflow for students
- pdf-formula-issues: troubleshooting guide for PDF extraction errors
- copy-math-to-word: 3 methods for getting formulas into Word, ranked
- researcher-workflow: digitizing handwritten research notes at scale

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-03-26 16:46:31 +08:00

3.3 KiB

Raw Blame History

title, description, slug, date, tags

title

description

slug

date

AI 如何读懂数学：TexPixel 识别引擎揭秘

当你上传一张手写积分式的照片，不到一秒就得到了干净的 LaTeX——这感觉像魔法。其实不是，但背后的工程确实很有意思。下面用通俗的语言解释 TexPixel 如何将像素转化为数学公式。

第一步：图像预处理

识别开始之前，图像会先被清理。这一步的重要性远超大多数人的预期。

TexPixel 会标准化对比度、去除噪点、矫正倾斜图像，并从周围的空白、印刷文字或横线中分离出公式区域。在强侧光下拍摄、或略微倾斜扫描的公式，在模型看到之前就已经被纠正了。

这就是图像质量如此影响准确率的原因：预处理可以弥补轻微的缺陷，但严重的模糊或极低分辨率（低于约 72 DPI）留下的信息太少，无法有效处理。

第二步：符号检测

预处理后的图像被输入视觉编码器——一个从数百万张数学图像中学习数学符号形态的神经网络。

这里的核心挑战不是孤立地识别单个符号，而是在上下文中识别它们。x 作为变量、作为乘号、以及以不同笔迹书写时，看起来各不相同。模型通过周围上下文来区分这些情况：附近有没有点？与分数线的垂直位置如何？

这种上下文理解，正是优秀数学 OCR 系统与通用字符识别器的本质区别。

第三步：结构解析

识别符号只是解决了一半的问题。数学是二维的，这是普通文字所没有的特性。分数有分子在上、分母在下；积分有上下限；矩阵将表达式排列成行和列。

TexPixel 的解析器从检测到的符号中构建结构树——理解这个表达式是那个符号的下标，那个表达式在根号内。然后将这棵树序列化为 LaTeX，其中结构关系被编码为 \frac{}{}、\sqrt{}、\sum_{}^{} 等命令。

第四步：LaTeX 生成

最后一步是遍历结构树并生成有效的 LaTeX。这包括处理歧义情况——例如，根据上下文判断一个大写 Σ 应该渲染为 \sum（行间数学模式）还是 \Sigma（行内）。

输出结果在返回之前会经过验证，确保编译无误。

为什么手写比印刷体难

印刷数学（来自教材或 PDF）笔画一致、对比度高。手写则变化极大——大小、倾斜度、笔画粗细和字母形态各异。两个人写的 7 和 1 可能几乎一样，而两个人写的 β 可能截然不同。

TexPixel 的模型在大量多样化的手写数学数据集上训练，以应对这种变化。但手写的准确率始终低于印刷体——通常为 88–95% 对比 95–99%。手写技巧指南中的建议可以将准确率推向上限。

整个流程在一秒内完成

预处理 → 符号检测 → 结构解析 → LaTeX 生成：所有这些在不到一秒内完成。这是精心设计的流水线，不是魔法——但第一次尝试时的速度仍然会让大多数人感到惊讶。

上传公式，亲身体验 →

3.3 KiB Raw Blame History Unescape Escape