refact: eliminate blog/docs content overlap

- Delete blog/copy-math-to-word (EN+ZH) — identical to docs/copy-to-word - Rewrite blog/pdf-formula-issues as narrative troubleshooting story; operational steps now link out to docs/pdf-extraction - Add "Further reading" cross-links: 4 docs → relevant blog posts - Add "See also" cross-links: 3 blog posts → relevant docs Docs = product reference; Blog = narrative/use cases/opinions Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-26 16:52:27 +08:00
parent 76f1bde56d
commit 99e1314bf9
18 changed files with 82 additions and 242 deletions
--- a/content/blog/zh/2026-02-15-pdf-formula-issues.md
+++ b/content/blog/zh/2026-02-15-pdf-formula-issues.md
@@ -1,73 +1,53 @@
 ---
-title: "PDF 公式识别出错的原因及修复方法"
-description: PDF 公式提取产生错误最常见的原因，以及每种情况的具体解决方案
+title: "我试着从教授的 PDF 里提取公式，结果学到了这些"
+description: 一次真实的 PDF 公式提取经历——以及为什么大多数问题都归结为三个根本原因
 slug: pdf-formula-issues
 date: 2026-02-15
-tags: [故障排查, PDF, 技巧]
+tags: [故障排查, PDF]
 ---

-# PDF 公式识别出错的原因及修复方法
+# 我试着从教授的 PDF 里提取公式，结果学到了这些

-PDF 公式提取本应简单——上传、得到 LaTeX、完成。但有时输出乱码、符号丢失，或者提示没有找到公式。以下是最常见原因的分析及对应的修复方法。
+上学期我在啃一份 200 页的讲义 PDF——那种从印刷胶片扫描而来、作为附件发出来、每页都略微倾斜的类型。我想把关键方程提取到自己的笔记里。接下来发生的事，让我深刻理解了 PDF 究竟是怎么存储（或者说不存储）数学内容的。

-## 问题 1：PDF 是扫描件
+## 第一个意外：不是所有 PDF 都一样

-**症状：** 屏幕上公式显示正确，但提取输出是乱码或空白。
+我天真地以为"有公式的 PDF"就意味着"可以提取的公式"。并非如此。

-**原因：** 扫描 PDF 实际上只是一组图片——没有真正的文字层。你在 PDF 阅读器中看到的文字，要么来自扫描时进行的 OCR（往往质量较差），要么直接来自图像本身。
+学术圈里流传着至少三种根本不同的 PDF，它们的行为完全不同：

-**解决方法：** 使用 TexPixel 的图像识别流程。用任意 PDF 查看器将页面导出为 300 DPI 的 PNG（Preview 中选择"文件 → 导出为图像"，或 Adobe Acrobat 的"导出 PDF"功能），然后直接上传 PNG。图像识别能正确处理扫描件；直接提取 PDF 文字则不行。
+**数字原生 PDF**（由 LaTeX、Word 或排版软件生成）包含真正的矢量数学内容。从这类 PDF 提取速度快、准确率 95% 以上——公式结构本质上已经在那里了。

-## 问题 2：扫描分辨率过低
+**扫描 PDF** 只是打印页面的照片，被包装进一个容器。没有文字层。提取依赖图像识别，准确率完全取决于扫描质量。教授的讲义就是这种。

-**症状：** 部分符号识别正确，其他符号被替换为错误字符或直接丢失。
+**混合 PDF** 是扫描后由 OCR 软件添加文字层的 PDF。质量参差不齐——有时很好，有时"文字层"完全是错的。这类 PDF 最难预测。

-**原因：** 低于约 150 DPI 时，`\prime`、`\cdot` 或下标字符等小符号的笔画只有几个像素宽——模糊到无法可靠区分。
+## 大多数失败的三个根本原因

-**解决方法：** 以 300 DPI 重新扫描。大多数平板扫描仪默认 200 DPI；提高到 300 DPI 能显著改善效果，且文件大小增加不大。对于手机扫描，使用专用扫描 App（如 Adobe Scan、Microsoft Lens）——这些 App 会自动锐化并进行透视校正。
+经过大量尝试和失败，我发现提取失败几乎总是归结为以下三种情况之一：

-## 问题 3：PDF 有密码保护
+**1. 分辨率。** 扫描时用了 150 DPI 而不是 300 DPI。低分辨率下，小符号——下标、撇号、点——只有几个像素宽。模型无法可靠区分 `\prime` 和一个杂散的污点。提高到 300 DPI 重新扫描，解决了一半以上的问题。

-**症状：** 显示"未找到公式"或上传完全失败。
+**2. 加密。** 部分 PDF 有密码保护或内容限制，阻止任何工具读取内容流。PDF 看起来打开正常，但没有工具能从中提取。移除密码（在 Preview 中选择"文件 → 导出为 PDF"，不勾选密码锁）解决了这个问题。

-**原因：** 加密 PDF 需要密码才能访问内容流。TexPixel 无法处理加密文件的内容。
+**3. 公式存储为矢量路径。** 部分 PDF 生成器将方程绘制为图形而非编码为字符。对任何提取工具来说，这些公式是隐形的——只是抽象的几何图形。唯一的办法是将页面渲染为图像，然后对图像进行视觉识别。

-**解决方法：** 上传前移除密码保护。在 Mac 的 Preview 中，用密码打开后，选择"文件 → 导出为 PDF"——导出的文件不含密码。在 Adobe Reader 中，使用"文件 → 打印 → 存储为 PDF"。
+## 最终有效的方法

-## 问题 4：公式存储为矢量路径
+对于教授的扫描讲义，有效的工作流是：

-**症状：** PDF 显示完美，但提取结果为空或不正确。
+1. 用 Preview 将每页导出为 300 DPI PNG
+2. 将 PNG 上传到 TexPixel
+3. 不到一秒得到干净的 LaTeX

-**原因：** 某些 PDF 生成器（特定版本的 Word、部分在线 LaTeX 渲染器）会将数学公式光栅化或矢量化为路径——公式本质上是图形，而非字符，没有字符流可以提取。
+不是我期望的直接处理 PDF 的工作流，但很可靠。图像识别流程不在乎原文件是扫描的还是数字原生的——它只看像素，读取数学内容。

-**解决方法：** 将页面导出为高分辨率 PNG（300 DPI），然后作为图像上传。TexPixel 的视觉识别流程能很好地处理矢量渲染的公式。
+## 更大的启示

-## 问题 5：双栏排版
+PDF 是展示格式，不是数据格式。它针对外观进行了优化，而不是含义。数学符号在传输过程中尤其容易被损坏——渲染、光栅化、路径转换——以破坏底层结构的方式。

-**症状：** 两栏的公式在输出中被合并或交叉混排。
+最可靠的信号永远是图像。如果不确定，导出为 PNG，让视觉识别来完成工作。

-**原因：** PDF 文字流并不总是以正确的阅读顺序编码，在双栏学术论文中尤为如此。
+---

-**解决方法：** 上传前裁剪为单栏。用任意图像编辑器将页面裁成左右两半，分别上传。
-
-## 问题 6：手写批注
-
-**症状：** 印刷公式上的手写笔记干扰输出。
-
-**原因：** TexPixel 同时看到了印刷公式和手写批注，可能会尝试将批注识别为公式的一部分。
-
-**解决方法：** 紧密裁剪，只保留印刷公式部分，排除周围的手写内容。
-
-## 快速排查清单
-
-上传有问题的 PDF 之前，先检查：
-
- [ ] 是扫描件还是数字原生 PDF？
- [ ] 如果是扫描件，分辨率是多少 DPI？
- [ ] 是否有密码保护？
- [ ] 是否是双栏排版？
- [ ] 是否有手写批注？
-
-逐项排查，能解决 90% 的问题。
-
-[上传你的 PDF →](/app)
+关于 PDF 类型、文件限制以及 TexPixel 支持范围的系统性参考，请查看 [PDF 公式提取文档 →](/docs/pdf-extraction)