Files

yoge 99e1314bf9 refact: eliminate blog/docs content overlap

- Delete blog/copy-math-to-word (EN+ZH) — identical to docs/copy-to-word
- Rewrite blog/pdf-formula-issues as narrative troubleshooting story;
  operational steps now link out to docs/pdf-extraction
- Add "Further reading" cross-links: 4 docs → relevant blog posts
- Add "See also" cross-links: 3 blog posts → relevant docs

Docs = product reference; Blog = narrative/use cases/opinions

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-03-26 16:52:27 +08:00

2.7 KiB

Raw Blame History

title, description, slug, date, tags, order

title

description

slug

date

PDF 公式提取

TexPixel 可以处理完整的 PDF 文档，自动从每一页提取所有公式。这对教材、研究论文或任何包含数学内容的多页文档非常有用。

如何从 PDF 提取

点击上传区域或将 PDF 文件拖拽到其中。
TexPixel 检测所有页面并识别公式区域。
每个识别的公式列在结果面板中。
复制单个公式或将整个文档导出为 DOCX。

提取内容

无论 PDF 中的公式是如何生成的，TexPixel 都能识别：

用 LaTeX 排版（渲染为矢量数学）
嵌入为图片（扫描页面）
两种混合

对于矢量 PDF（由 LaTeX 或 Word 生成），识别准确率通常为 95% 以上。对于扫描/图片 PDF，准确率遵循与普通图片上传相同的图片质量准则。

支持的 PDF 类型

类型	描述	准确率
矢量 PDF	由 LaTeX、Word 或排版工具创建	95–99%
扫描 PDF（高质量）	印刷文字的 300 DPI 扫描	90–97%
扫描 PDF（低质量）	< 150 DPI 或对比度差	60–80%
照片 PDF	嵌入为图片的拍照页面	75–90%

文件限制

最大文件大小： 20 MB
最大页数： 每次上传 50 页（专业版：无限制）
处理时间： 每页约 2–5 秒

对于超出限制的文档，上传前将 PDF 分割成较小的部分。

导出 PDF 识别结果

提取后，可以多种方式导出：

复制单个公式 — 点击任意识别的公式复制其 LaTeX
DOCX 导出 — 下载包含原生 Word 方程的完整文档
批量复制 — 将所有公式复制为列表（专业版功能）

提高 PDF 识别效果的技巧

使用原始 PDF，而非重新扫描的副本——矢量 PDF 效果最佳
避免密码保护的 PDF——这类文件无法处理
如果 PDF 有很宽的空白边距，裁剪页面——较小的页面处理更快
对于非常大的文档，按章节分割以保持在页数限制内

常见问题

"未找到公式" PDF 可能已加密，公式可能以复杂矢量路径存储，或使用了非标准编码。尝试将页面转换为 PNG 图片后再上传。

公式已识别但内容乱码 这通常发生在非常低 DPI 的扫描件上。尝试在上传前使用 PDF 扫描应用以 300 DPI 重新扫描。

处理速度慢 包含多页的大型 PDF 可能需要 30–60 秒。这是正常的，处理完成后结果会显示。

延伸阅读： 我试着从教授的 PDF 里提取公式——真实排障经历 →

上传 PDF 提取公式 →

2.7 KiB Raw Blame History Unescape Escape