Files
bigwo/README.md
2026-03-02 17:38:28 +08:00

50 lines
1.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# AI 知识库文档智能分块工具
将多种格式文档解析为文本,通过 DeepSeek API 进行语义级智能分块,输出为 Markdown 文件。
## 支持格式
PDF、Word (.docx)、Excel (.xlsx/.xls)、CSV、HTML、TXT/MD、图片 (PNG/JPG/BMP/GIF/WEBP)
## 安装
```bash
cd ai-knowledge-splitter
pip install -r requirements.txt
```
## 使用
```bash
python main.py <输入文件> -k <DeepSeek API Key> [-o 输出路径] [-d 分隔符]
```
示例:
```bash
# 基本用法(输出为同名 .md 文件)
python main.py report.pdf -k sk-xxxxxxxx
# 指定输出路径
python main.py data.docx -k sk-xxxxxxxx -o output/result.md
# 自定义分隔符
python main.py notes.txt -k sk-xxxxxxxx -d "==="
```
## 参数说明
| 参数 | 必需 | 说明 |
|------|------|------|
| `input_file` | 是 | 输入文件路径 |
| `-k, --api-key` | 是 | DeepSeek API Key |
| `-o, --output` | 否 | 输出文件路径(默认:同名 .md |
| `-d, --delimiter` | 否 | 分块分隔符(默认:`---` |
## 运行测试
```bash
cd ai-knowledge-splitter
pytest tests/ -v
```