方案1 pdf24 (在线)
https://tools.pdf24.org/en/(完全免费,无限制)
方案2 LibreOffice(离线,开源免费)
libreoffice --headless --convert-to docx input.pdf
LibreOffice 作为一款强大且开源的办公软件套件,其 –headless 选项意味着在后台运行,无需用户界面的直接交互。这种无界面的运行方式极大地提高了处理效率,尤其适用于自动化的文档转换任务。
–convert-to 则明确指定了转换的目标格式,在本例中为 docx 格式。docx 格式作为当今广泛使用的文档格式之一,具有良好的兼容性和丰富的功能。
方案3 pdf2docx (离线)
pip install pdf2docx
from pdf2docx import Converter
pdf_file = "input.pdf"
docx_file = "output.docx"
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()
优点:完全免费,转换质量较高。
缺点:需要安装 Python,对初学者稍微复杂
方案4 pandoc
# 如果 PDF 主要是文本(而非扫描图像),可以用 pandoc
# https://github.com/jgm/pandoc/ 下载
pandoc input.pdf -o output.docx
如果有表格,图片,先 在ai 聊天工具 转markdown ,比如kimi
- ai 转markdown
- pandoc 转word
方案4 很不错哦