2026-03-26 16:15:22 +08:00
|
|
|
|
---
|
|
|
|
|
|
title: PDF 公式提取
|
|
|
|
|
|
description: 使用 TexPixel 自动从 PDF 文档中提取并转换公式
|
|
|
|
|
|
slug: pdf-extraction
|
|
|
|
|
|
date: 2026-03-25
|
|
|
|
|
|
tags: [PDF, 提取]
|
|
|
|
|
|
order: 6
|
|
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
|
|
# PDF 公式提取
|
|
|
|
|
|
|
|
|
|
|
|
TexPixel 可以处理完整的 PDF 文档,自动从每一页提取所有公式。这对教材、研究论文或任何包含数学内容的多页文档非常有用。
|
|
|
|
|
|
|
|
|
|
|
|
## 如何从 PDF 提取
|
|
|
|
|
|
|
|
|
|
|
|
1. 点击上传区域或将 PDF 文件拖拽到其中。
|
|
|
|
|
|
2. TexPixel 检测所有页面并识别公式区域。
|
|
|
|
|
|
3. 每个识别的公式列在结果面板中。
|
|
|
|
|
|
4. 复制单个公式或将整个文档导出为 DOCX。
|
|
|
|
|
|
|
|
|
|
|
|
## 提取内容
|
|
|
|
|
|
|
|
|
|
|
|
无论 PDF 中的公式是如何生成的,TexPixel 都能识别:
|
|
|
|
|
|
- 用 LaTeX 排版(渲染为矢量数学)
|
|
|
|
|
|
- 嵌入为图片(扫描页面)
|
|
|
|
|
|
- 两种混合
|
|
|
|
|
|
|
|
|
|
|
|
对于矢量 PDF(由 LaTeX 或 Word 生成),识别准确率通常为 95% 以上。对于扫描/图片 PDF,准确率遵循与普通图片上传相同的图片质量准则。
|
|
|
|
|
|
|
|
|
|
|
|
## 支持的 PDF 类型
|
|
|
|
|
|
|
|
|
|
|
|
| 类型 | 描述 | 准确率 |
|
|
|
|
|
|
|---|---|---|
|
|
|
|
|
|
| 矢量 PDF | 由 LaTeX、Word 或排版工具创建 | 95–99% |
|
|
|
|
|
|
| 扫描 PDF(高质量) | 印刷文字的 300 DPI 扫描 | 90–97% |
|
|
|
|
|
|
| 扫描 PDF(低质量) | < 150 DPI 或对比度差 | 60–80% |
|
|
|
|
|
|
| 照片 PDF | 嵌入为图片的拍照页面 | 75–90% |
|
|
|
|
|
|
|
|
|
|
|
|
## 文件限制
|
|
|
|
|
|
|
|
|
|
|
|
- **最大文件大小:** 20 MB
|
|
|
|
|
|
- **最大页数:** 每次上传 50 页(专业版:无限制)
|
|
|
|
|
|
- **处理时间:** 每页约 2–5 秒
|
|
|
|
|
|
|
|
|
|
|
|
对于超出限制的文档,上传前将 PDF 分割成较小的部分。
|
|
|
|
|
|
|
|
|
|
|
|
## 导出 PDF 识别结果
|
|
|
|
|
|
|
|
|
|
|
|
提取后,可以多种方式导出:
|
|
|
|
|
|
|
|
|
|
|
|
- **复制单个公式** — 点击任意识别的公式复制其 LaTeX
|
|
|
|
|
|
- **DOCX 导出** — 下载包含原生 Word 方程的完整文档
|
|
|
|
|
|
- **批量复制** — 将所有公式复制为列表(专业版功能)
|
|
|
|
|
|
|
|
|
|
|
|
## 提高 PDF 识别效果的技巧
|
|
|
|
|
|
|
|
|
|
|
|
- **使用原始 PDF**,而非重新扫描的副本——矢量 PDF 效果最佳
|
|
|
|
|
|
- **避免密码保护的 PDF**——这类文件无法处理
|
|
|
|
|
|
- 如果 PDF 有很宽的空白边距,**裁剪页面**——较小的页面处理更快
|
|
|
|
|
|
- 对于非常大的文档,**按章节分割**以保持在页数限制内
|
|
|
|
|
|
|
|
|
|
|
|
## 常见问题
|
|
|
|
|
|
|
|
|
|
|
|
**"未找到公式"**
|
|
|
|
|
|
PDF 可能已加密,公式可能以复杂矢量路径存储,或使用了非标准编码。尝试将页面转换为 PNG 图片后再上传。
|
|
|
|
|
|
|
|
|
|
|
|
**公式已识别但内容乱码**
|
|
|
|
|
|
这通常发生在非常低 DPI 的扫描件上。尝试在上传前使用 PDF 扫描应用以 300 DPI 重新扫描。
|
|
|
|
|
|
|
|
|
|
|
|
**处理速度慢**
|
|
|
|
|
|
包含多页的大型 PDF 可能需要 30–60 秒。这是正常的,处理完成后结果会显示。
|
|
|
|
|
|
|
|
|
|
|
|
---
|
|
|
|
|
|
|
2026-03-26 16:52:27 +08:00
|
|
|
|
**延伸阅读:** [我试着从教授的 PDF 里提取公式——真实排障经历 →](/blog/pdf-formula-issues)
|
|
|
|
|
|
|
2026-03-26 16:15:22 +08:00
|
|
|
|
[上传 PDF 提取公式 →](/app)
|