User 56940676f6 feat(kb): VikingDB纯检索+重排+Redis上下文+全库搜索+别名扩展+KB保护窗口+RAG语气引导
- 新增 kbRetriever.js: VikingDB search_knowledge 纯检索替代 Ark chat/completions, doubao-seed-rerank 重排, RAG payload 语气引导缓解音色差异

- 新增 redisClient.js: Redis 连接管理 + 5轮对话历史 + KB缓存双写

- toolExecutor.js: 产品别名扩展25条, 全库检索topK=25, 检索阈值0.01, 精简 buildDeterministicKnowledgeQuery

- nativeVoiceGateway.js: isPureChitchat扩展, KB保护窗口60s, prequery参数调优

- realtimeDialogRouting.js: resolveReply感知KB保护窗口, fast-path适配raw模式

- app.js: 健康检查新增 redis/reranker/kbRetrievalMode

- 新增测试: alias A/B测试, KB retriever测试, Redis客户端测试, raw模式集成测试
2026-03-26 14:30:32 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00
2026-03-12 12:47:56 +08:00

AI 知识库文档智能分块工具

将多种格式文档解析为文本,通过 DeepSeek API 进行语义级智能分块,输出为 Markdown 文件。

支持格式

PDF、Word (.docx)、Excel (.xlsx/.xls)、CSV、HTML、TXT/MD、图片 (PNG/JPG/BMP/GIF/WEBP)

安装

cd ai-knowledge-splitter
pip install -r requirements.txt

使用

python main.py <输入文件> -k <DeepSeek API Key> [-o 输出路径] [-d 分隔符]

示例:

# 基本用法(输出为同名 .md 文件)
python main.py report.pdf -k sk-xxxxxxxx

# 指定输出路径
python main.py data.docx -k sk-xxxxxxxx -o output/result.md

# 自定义分隔符
python main.py notes.txt -k sk-xxxxxxxx -d "==="

参数说明

参数 必需 说明
input_file 输入文件路径
-k, --api-key DeepSeek API Key
-o, --output 输出文件路径(默认:同名 .md
-d, --delimiter 分块分隔符(默认:---

运行测试

cd ai-knowledge-splitter
pytest tests/ -v
Description
No description provided
Readme 41 MiB
Languages
Python 100%