schoolNews/schoolNewsCrawler/requirements.txt

# 核心爬虫库
requests        # HTTP请求库
beautifulsoup4    # HTML/XML解析库
lxml               # 高性能HTML/XML解析器
selenium         # 浏览器自动化（用于动态页面）
scrapy            # 专业爬虫框架（可选）
crawl4ai         # 基于 Playwright 的智能爬虫框架
playwright        # 浏览器自动化框架（Crawl4AI 依赖）

# 异步支持
aiohttp             # 异步HTTP客户端
asyncio             # 异步IO支持
httpx               # 现代HTTP客户端，支持异步

# 数据校验与类型检查
pydantic            # 数据验证和设置管理
pydantic-settings   # Pydantic配置管理
typing-extensions   # 类型注解扩展
mypy                # 静态类型检查器

# 数据处理
pandas              # 数据分析和处理
openpyxl            # Excel文件读写
python-dateutil     # 日期时间处理
pytz                # 时区处理

# 日志与调试
loguru              # 现代化日志库
colorlog            # 彩色日志输出

# 配置管理
python-dotenv        # 环境变量管理
pyyaml              # YAML配置文件支持

# 数据库连接（用于存储爬取的数据）
pymysql             # MySQL数据库连接
sqlalchemy          # ORM框架

# HTTP客户端增强
urllib3             # HTTP库
certifi             # SSL证书
charset-normalizer  # 字符编码检测

# HTML处理增强
html5lib            # HTML5解析器
cssselect           # CSS选择器

# 反爬虫对策
fake-useragent      # 随机User-Agent
pyquery             # jQuery风格的HTML解析

# 图片处理（如果需要下载图片）
Pillow              # 图像处理库

# 网络工具
chardet             # 字符编码检测

# 定时任务（如果Python端需要独立运行）
schedule              # 简单的定时任务库
apscheduler           # 高级定时任务调度器

# WebDriver管理（自动下载浏览器驱动）
webdriver-manager     # 自动管理Selenium WebDriver

# JSON处理增强
jsonschema            # JSON数据验证

# 代理支持
pysocks               # SOCKS代理支持

# 开发工具
pytest                # 测试框架
pytest-asyncio        # 异步测试支持
black                 # 代码格式化
flake8                # 代码风格检查
isort                 # import排序