扫码访问本站
网站二维码
使用手机扫描二维码访问 21划生
yyds996.cn
开源软件 3 次浏览 2026-06-02

MarkItDown — 微软官方开源!一键将任意文件转为Markdown

🌟 为什么值得关注?

微软官方出品的开源神器!14万+ GitHub Star,可以把 Office文档、PDF、图片、HTML、CSV、JSON、ZIP 等几乎所有常见文件格式一键转换成干净的 Markdown 文本。

这个工具对以下人群简直是救命级别的存在:写博客要引用 PDF 内容、需要从 Word 提取纯文本、想把网页保存为 Markdown 笔记、批量处理文档做 RAG/AI 训练数据...

🎯 核心功能

📄 全能文件解析

支持 Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx)、PDF、图片(OCR提取文字)、HTML网页、CSV表格、JSON数据、ZIP压缩包等数十种格式

🔌 多接口调用

提供 Python 库直接调用、命令行CLI工具、以及 HTTP API 服务三种方式,无论是写脚本还是集成到项目中都非常灵活

🧠 智能OCR识别

内置 OCR 引擎,可以自动识别图片和扫描件中的文字内容,连图片里的表格都能转成 Markdown 格式

⚡ 极简使用体验

一行命令搞定:markitdown document.pdf,立刻在终端看到干净的 Markdown 输出,支持管道重定向保存到文件

💡 典型使用场景

• 博客写手:把参考资料的 PDF/网页 转成 Markdown,直接粘贴编辑

• 开发者:将项目文档批量整理为统一的 Markdown 格式

• AI工程师:快速构建 RAG 知识库的训练数据集

• 日常办公:把 Word/PPT 内容快速提取为干净的纯文本

📥 获取方式

GitHub 开源免费:https://github.com/microsoft/markitdown

安装:pip install markitdown

登录后即可获取资源链接

评论 (0)

暂无评论,来说点什么吧~