Tabled, 数据开源解析项目 marker 和 surya 开源作者
@VikParuchuri
又一力作, 用于检测和提取表格。

使用 surya 在 PDF 中找到所有表格, 识别行和列, 并将单元格格式化为 markdown、csv 或 html, 它可以处理 PDF、图像、Word 文档和 PowerPoint 文件。

# 主要功能:
- 表格检测和提取
- 支持多种输出格式 (markdown, html, csv)
- 可以保存额外的行列信息为 JSON 文件
- 可以保存显示检测到的行和列的调试图像

# 性能:
- 在基准测试中, 与 GPT-4 表格预测相比, 达到了 0.847 的对齐分数
- 在 A10G GPU 上, 平均每个表格处理时间为 0.029 秒

https://github.com/VikParuchuri/tabled
 
 
Back to Top