一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。

主要功能:

删除页眉、页脚、脚注、页码等元素,保持语义连贯

对多栏输出符合人类阅读顺序的文本

保留原文档的结构,包括标题、段落、列表等

提取图像、图片标题、表格、表格标题

自动识别文档中的公式并将公式转换成latex

自动识别文档中的表格并将表格转换成latex

乱码PDF自动检测并启用OCR

支持CPU和GPU环境

支持windows/linux/mac平台

在线体验:https://www.modelscope.cn/studios/OpenDataLab/MinerU

在线网址:https://opendatalab.com/OpenSourceTools/Extractor/

GitHub地址:https://github.com/opendatalab/MinerU

历史上的今天
09月
16
    抱歉,历史上的今天作者很懒,什么都没写!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。