Files
doc_ai_frontend/content/docs/zh/pdf-extraction.md
yoge 99e1314bf9 refact: eliminate blog/docs content overlap
- Delete blog/copy-math-to-word (EN+ZH) — identical to docs/copy-to-word
- Rewrite blog/pdf-formula-issues as narrative troubleshooting story;
  operational steps now link out to docs/pdf-extraction
- Add "Further reading" cross-links: 4 docs → relevant blog posts
- Add "See also" cross-links: 3 blog posts → relevant docs

Docs = product reference; Blog = narrative/use cases/opinions

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-26 16:52:27 +08:00

2.7 KiB
Raw Blame History

title, description, slug, date, tags, order
title description slug date tags order
PDF 公式提取 使用 TexPixel 自动从 PDF 文档中提取并转换公式 pdf-extraction 2026-03-25
PDF
提取
6

PDF 公式提取

TexPixel 可以处理完整的 PDF 文档,自动从每一页提取所有公式。这对教材、研究论文或任何包含数学内容的多页文档非常有用。

如何从 PDF 提取

  1. 点击上传区域或将 PDF 文件拖拽到其中。
  2. TexPixel 检测所有页面并识别公式区域。
  3. 每个识别的公式列在结果面板中。
  4. 复制单个公式或将整个文档导出为 DOCX。

提取内容

无论 PDF 中的公式是如何生成的TexPixel 都能识别:

  • 用 LaTeX 排版(渲染为矢量数学)
  • 嵌入为图片(扫描页面)
  • 两种混合

对于矢量 PDF由 LaTeX 或 Word 生成),识别准确率通常为 95% 以上。对于扫描/图片 PDF准确率遵循与普通图片上传相同的图片质量准则。

支持的 PDF 类型

类型 描述 准确率
矢量 PDF 由 LaTeX、Word 或排版工具创建 9599%
扫描 PDF高质量 印刷文字的 300 DPI 扫描 9097%
扫描 PDF低质量 < 150 DPI 或对比度差 6080%
照片 PDF 嵌入为图片的拍照页面 7590%

文件限制

  • 最大文件大小: 20 MB
  • 最大页数: 每次上传 50 页(专业版:无限制)
  • 处理时间: 每页约 25 秒

对于超出限制的文档,上传前将 PDF 分割成较小的部分。

导出 PDF 识别结果

提取后,可以多种方式导出:

  • 复制单个公式 — 点击任意识别的公式复制其 LaTeX
  • DOCX 导出 — 下载包含原生 Word 方程的完整文档
  • 批量复制 — 将所有公式复制为列表(专业版功能)

提高 PDF 识别效果的技巧

  • 使用原始 PDF,而非重新扫描的副本——矢量 PDF 效果最佳
  • 避免密码保护的 PDF——这类文件无法处理
  • 如果 PDF 有很宽的空白边距,裁剪页面——较小的页面处理更快
  • 对于非常大的文档,按章节分割以保持在页数限制内

常见问题

"未找到公式" PDF 可能已加密,公式可能以复杂矢量路径存储,或使用了非标准编码。尝试将页面转换为 PNG 图片后再上传。

公式已识别但内容乱码 这通常发生在非常低 DPI 的扫描件上。尝试在上传前使用 PDF 扫描应用以 300 DPI 重新扫描。

处理速度慢 包含多页的大型 PDF 可能需要 3060 秒。这是正常的,处理完成后结果会显示。


延伸阅读: 我试着从教授的 PDF 里提取公式——真实排障经历 →

上传 PDF 提取公式 →