Initial commit: AI 知识库文档智能分块工具
This commit is contained in:
49
README.md
Normal file
49
README.md
Normal file
@@ -0,0 +1,49 @@
|
||||
# AI 知识库文档智能分块工具
|
||||
|
||||
将多种格式文档解析为文本,通过 DeepSeek API 进行语义级智能分块,输出为 Markdown 文件。
|
||||
|
||||
## 支持格式
|
||||
|
||||
PDF、Word (.docx)、Excel (.xlsx/.xls)、CSV、HTML、TXT/MD、图片 (PNG/JPG/BMP/GIF/WEBP)
|
||||
|
||||
## 安装
|
||||
|
||||
```bash
|
||||
cd ai-knowledge-splitter
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
## 使用
|
||||
|
||||
```bash
|
||||
python main.py <输入文件> -k <DeepSeek API Key> [-o 输出路径] [-d 分隔符]
|
||||
```
|
||||
|
||||
示例:
|
||||
|
||||
```bash
|
||||
# 基本用法(输出为同名 .md 文件)
|
||||
python main.py report.pdf -k sk-xxxxxxxx
|
||||
|
||||
# 指定输出路径
|
||||
python main.py data.docx -k sk-xxxxxxxx -o output/result.md
|
||||
|
||||
# 自定义分隔符
|
||||
python main.py notes.txt -k sk-xxxxxxxx -d "==="
|
||||
```
|
||||
|
||||
## 参数说明
|
||||
|
||||
| 参数 | 必需 | 说明 |
|
||||
|------|------|------|
|
||||
| `input_file` | 是 | 输入文件路径 |
|
||||
| `-k, --api-key` | 是 | DeepSeek API Key |
|
||||
| `-o, --output` | 否 | 输出文件路径(默认:同名 .md) |
|
||||
| `-d, --delimiter` | 否 | 分块分隔符(默认:`---`) |
|
||||
|
||||
## 运行测试
|
||||
|
||||
```bash
|
||||
cd ai-knowledge-splitter
|
||||
pytest tests/ -v
|
||||
```
|
||||
Reference in New Issue
Block a user