feat: add 5 new blog posts (en + zh)

- how-ai-reads-math: plain-English explainer of the recognition pipeline
- student-workflow: lecture-to-LaTeX workflow for students
- pdf-formula-issues: troubleshooting guide for PDF extraction errors
- copy-math-to-word: 3 methods for getting formulas into Word, ranked
- researcher-workflow: digitizing handwritten research notes at scale

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-03-26 16:46:31 +08:00
parent 012748fc3d
commit 76f1bde56d
10 changed files with 702 additions and 0 deletions

View File

@@ -0,0 +1,73 @@
---
title: "PDF 公式识别出错的原因及修复方法"
description: PDF 公式提取产生错误最常见的原因,以及每种情况的具体解决方案
slug: pdf-formula-issues
date: 2026-02-15
tags: [故障排查, PDF, 技巧]
---
# PDF 公式识别出错的原因及修复方法
PDF 公式提取本应简单——上传、得到 LaTeX、完成。但有时输出乱码、符号丢失或者提示没有找到公式。以下是最常见原因的分析及对应的修复方法。
## 问题 1PDF 是扫描件
**症状:** 屏幕上公式显示正确,但提取输出是乱码或空白。
**原因:** 扫描 PDF 实际上只是一组图片——没有真正的文字层。你在 PDF 阅读器中看到的文字,要么来自扫描时进行的 OCR往往质量较差要么直接来自图像本身。
**解决方法:** 使用 TexPixel 的图像识别流程。用任意 PDF 查看器将页面导出为 300 DPI 的 PNGPreview 中选择"文件 → 导出为图像",或 Adobe Acrobat 的"导出 PDF"功能),然后直接上传 PNG。图像识别能正确处理扫描件直接提取 PDF 文字则不行。
## 问题 2扫描分辨率过低
**症状:** 部分符号识别正确,其他符号被替换为错误字符或直接丢失。
**原因:** 低于约 150 DPI 时,`\prime``\cdot` 或下标字符等小符号的笔画只有几个像素宽——模糊到无法可靠区分。
**解决方法:** 以 300 DPI 重新扫描。大多数平板扫描仪默认 200 DPI提高到 300 DPI 能显著改善效果,且文件大小增加不大。对于手机扫描,使用专用扫描 App如 Adobe Scan、Microsoft Lens——这些 App 会自动锐化并进行透视校正。
## 问题 3PDF 有密码保护
**症状:** 显示"未找到公式"或上传完全失败。
**原因:** 加密 PDF 需要密码才能访问内容流。TexPixel 无法处理加密文件的内容。
**解决方法:** 上传前移除密码保护。在 Mac 的 Preview 中,用密码打开后,选择"文件 → 导出为 PDF"——导出的文件不含密码。在 Adobe Reader 中,使用"文件 → 打印 → 存储为 PDF"。
## 问题 4公式存储为矢量路径
**症状:** PDF 显示完美,但提取结果为空或不正确。
**原因:** 某些 PDF 生成器(特定版本的 Word、部分在线 LaTeX 渲染器)会将数学公式光栅化或矢量化为路径——公式本质上是图形,而非字符,没有字符流可以提取。
**解决方法:** 将页面导出为高分辨率 PNG300 DPI然后作为图像上传。TexPixel 的视觉识别流程能很好地处理矢量渲染的公式。
## 问题 5双栏排版
**症状:** 两栏的公式在输出中被合并或交叉混排。
**原因:** PDF 文字流并不总是以正确的阅读顺序编码,在双栏学术论文中尤为如此。
**解决方法:** 上传前裁剪为单栏。用任意图像编辑器将页面裁成左右两半,分别上传。
## 问题 6手写批注
**症状:** 印刷公式上的手写笔记干扰输出。
**原因:** TexPixel 同时看到了印刷公式和手写批注,可能会尝试将批注识别为公式的一部分。
**解决方法:** 紧密裁剪,只保留印刷公式部分,排除周围的手写内容。
## 快速排查清单
上传有问题的 PDF 之前,先检查:
- [ ] 是扫描件还是数字原生 PDF
- [ ] 如果是扫描件,分辨率是多少 DPI
- [ ] 是否有密码保护?
- [ ] 是否是双栏排版?
- [ ] 是否有手写批注?
逐项排查,能解决 90% 的问题。
[上传你的 PDF →](/app)