Files
doc_ai_frontend/content/docs/zh/pdf-extraction.md
yoge 99e1314bf9 refact: eliminate blog/docs content overlap
- Delete blog/copy-math-to-word (EN+ZH) — identical to docs/copy-to-word
- Rewrite blog/pdf-formula-issues as narrative troubleshooting story;
  operational steps now link out to docs/pdf-extraction
- Add "Further reading" cross-links: 4 docs → relevant blog posts
- Add "See also" cross-links: 3 blog posts → relevant docs

Docs = product reference; Blog = narrative/use cases/opinions

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-26 16:52:27 +08:00

78 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: PDF 公式提取
description: 使用 TexPixel 自动从 PDF 文档中提取并转换公式
slug: pdf-extraction
date: 2026-03-25
tags: [PDF, 提取]
order: 6
---
# PDF 公式提取
TexPixel 可以处理完整的 PDF 文档,自动从每一页提取所有公式。这对教材、研究论文或任何包含数学内容的多页文档非常有用。
## 如何从 PDF 提取
1. 点击上传区域或将 PDF 文件拖拽到其中。
2. TexPixel 检测所有页面并识别公式区域。
3. 每个识别的公式列在结果面板中。
4. 复制单个公式或将整个文档导出为 DOCX。
## 提取内容
无论 PDF 中的公式是如何生成的TexPixel 都能识别:
- 用 LaTeX 排版(渲染为矢量数学)
- 嵌入为图片(扫描页面)
- 两种混合
对于矢量 PDF由 LaTeX 或 Word 生成),识别准确率通常为 95% 以上。对于扫描/图片 PDF准确率遵循与普通图片上传相同的图片质量准则。
## 支持的 PDF 类型
| 类型 | 描述 | 准确率 |
|---|---|---|
| 矢量 PDF | 由 LaTeX、Word 或排版工具创建 | 9599% |
| 扫描 PDF高质量 | 印刷文字的 300 DPI 扫描 | 9097% |
| 扫描 PDF低质量 | < 150 DPI 或对比度差 | 6080% |
| 照片 PDF | 嵌入为图片的拍照页面 | 7590% |
## 文件限制
- **最大文件大小:** 20 MB
- **最大页数:** 每次上传 50 页(专业版:无限制)
- **处理时间:** 每页约 25 秒
对于超出限制的文档,上传前将 PDF 分割成较小的部分。
## 导出 PDF 识别结果
提取后,可以多种方式导出:
- **复制单个公式** — 点击任意识别的公式复制其 LaTeX
- **DOCX 导出** — 下载包含原生 Word 方程的完整文档
- **批量复制** — 将所有公式复制为列表(专业版功能)
## 提高 PDF 识别效果的技巧
- **使用原始 PDF**,而非重新扫描的副本——矢量 PDF 效果最佳
- **避免密码保护的 PDF**——这类文件无法处理
- 如果 PDF 有很宽的空白边距,**裁剪页面**——较小的页面处理更快
- 对于非常大的文档,**按章节分割**以保持在页数限制内
## 常见问题
**"未找到公式"**
PDF 可能已加密,公式可能以复杂矢量路径存储,或使用了非标准编码。尝试将页面转换为 PNG 图片后再上传。
**公式已识别但内容乱码**
这通常发生在非常低 DPI 的扫描件上。尝试在上传前使用 PDF 扫描应用以 300 DPI 重新扫描。
**处理速度慢**
包含多页的大型 PDF 可能需要 3060 秒。这是正常的,处理完成后结果会显示。
---
**延伸阅读:** [我试着从教授的 PDF 里提取公式——真实排障经历 →](/blog/pdf-formula-issues)
[上传 PDF 提取公式 →](/app)