Files
schoolNews/schoolNewsCrawler/requirements.txt
2025-11-10 15:22:44 +08:00

78 lines
2.3 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 核心爬虫库
requests # HTTP请求库
beautifulsoup4 # HTML/XML解析库
lxml # 高性能HTML/XML解析器
selenium # 浏览器自动化(用于动态页面)
scrapy # 专业爬虫框架(可选)
crawl4ai # 基于 Playwright 的智能爬虫框架
playwright # 浏览器自动化框架Crawl4AI 依赖)
# 异步支持
aiohttp # 异步HTTP客户端
asyncio # 异步IO支持
httpx # 现代HTTP客户端支持异步
# 数据校验与类型检查
pydantic # 数据验证和设置管理
pydantic-settings # Pydantic配置管理
typing-extensions # 类型注解扩展
mypy # 静态类型检查器
# 数据处理
pandas # 数据分析和处理
openpyxl # Excel文件读写
python-dateutil # 日期时间处理
pytz # 时区处理
# 日志与调试
loguru # 现代化日志库
colorlog # 彩色日志输出
# 配置管理
python-dotenv # 环境变量管理
pyyaml # YAML配置文件支持
# 数据库连接(用于存储爬取的数据)
pymysql # MySQL数据库连接
sqlalchemy # ORM框架
# HTTP客户端增强
urllib3 # HTTP库
certifi # SSL证书
charset-normalizer # 字符编码检测
# HTML处理增强
html5lib # HTML5解析器
cssselect # CSS选择器
# 反爬虫对策
fake-useragent # 随机User-Agent
pyquery # jQuery风格的HTML解析
# 图片处理(如果需要下载图片)
Pillow # 图像处理库
# 网络工具
chardet # 字符编码检测
# 定时任务如果Python端需要独立运行
schedule # 简单的定时任务库
apscheduler # 高级定时任务调度器
# WebDriver管理自动下载浏览器驱动
webdriver-manager # 自动管理Selenium WebDriver
# JSON处理增强
jsonschema # JSON数据验证
# 代理支持
pysocks # SOCKS代理支持
# 开发工具
pytest # 测试框架
pytest-asyncio # 异步测试支持
black # 代码格式化
flake8 # 代码风格检查
isort # import排序