使用场景
研究人员使用该工具快速总结心理学书籍,整合不同书籍中的理论和实验结果。
学生利用该工具从长篇历史文档中提取关键事件和日期,准备考试。
作家使用该工具从自己的长篇作品中提取核心思想,构建书籍大纲。
产品特色
自动化提取书籍章节并分割成小块:能够处理epub和pdf格式,自动提取章节并分割成易于处理的小块。
生成要点笔记摘要:对每个文本块生成要点笔记,包括加粗的标题和术语。
支持自定义问题查询:用户可以对文本的每个部分提出问题,获得更具体的信息。
支持多种模型使用:包括Ollama和HuggingFace提供的模型,用户可以根据需要选择合适的模型。
输出格式化文本:支持输出为CSV或Markdown格式,方便用户进一步处理和查看。
支持长文本处理:特别适用于长文本,如电子书,能够处理大量文本并生成摘要。
自定义配置文件:用户可以根据需要更新配置文件,以适应不同的摘要需求。
使用教程
1. 确保已安装Python 3.11.9环境。
2. 安装项目依赖,通过命令`pip install -r requirements.txt`。
3. 下载并设置所需的模型,使用Ollama或HuggingFace。
4. 更新配置文件`_config.yaml`,设置默认的prompt和模型。
5. 使用脚本`python3 book2text.py ebook-name.epub`将电子书转换为分块的CSV或TXT文件。
6. 运行`python3 sum.py -c ebook-name_processed.csv`生成摘要。
7. 查看生成的Markdown或CSV文件,获取书籍的要点笔记摘要。