PHP前端开发

智能 PDF 数据提取和数据库创建

百变鹏仔 6天前 #Python
文章标签 数据库

项目目标: 构建一个系统,自动从供应商提供的PDF文档中提取结构化和非结构化数据,并将其存储到数据库中,以便进行索引和查询。该系统还需集成一个能够基于PDF内容回答问题的聊天机器人。

项目细节:

核心功能:

数据存储与查询:

技术挑战:

预期成果:

{    "标题1": "标题1下的文本",    "标题2": [        "项目符号1",        "项目符号2",        "项目符号3"    ],    "表格标题": [        {"列1": "值1", "列2": "值2"},        {"列1": "值3", "列2": "值4"}    ]}

当前进展:

寻求帮助:

  • 聊天机器人集成建议: 建议如何将聊天机器人与Elasticsearch集成,以实现高效查询。
  • 大型PDF处理: 寻求处理大型复杂PDF文档的最佳实践。
  • 期望的社区支持: