# 核心爬虫库 requests # HTTP请求库 beautifulsoup4 # HTML/XML解析库 lxml # 高性能HTML/XML解析器 selenium # 浏览器自动化(用于动态页面) scrapy # 专业爬虫框架(可选) crawl4ai # 基于 Playwright 的智能爬虫框架 playwright # 浏览器自动化框架(Crawl4AI 依赖) # 异步支持 aiohttp # 异步HTTP客户端 asyncio # 异步IO支持 httpx # 现代HTTP客户端,支持异步 # 数据校验与类型检查 pydantic # 数据验证和设置管理 pydantic-settings # Pydantic配置管理 typing-extensions # 类型注解扩展 mypy # 静态类型检查器 # 数据处理 pandas # 数据分析和处理 openpyxl # Excel文件读写 python-dateutil # 日期时间处理 pytz # 时区处理 # 日志与调试 loguru # 现代化日志库 colorlog # 彩色日志输出 # 配置管理 python-dotenv # 环境变量管理 pyyaml # YAML配置文件支持 # 数据库连接(用于存储爬取的数据) pymysql # MySQL数据库连接 sqlalchemy # ORM框架 # HTTP客户端增强 urllib3 # HTTP库 certifi # SSL证书 charset-normalizer # 字符编码检测 # HTML处理增强 html5lib # HTML5解析器 cssselect # CSS选择器 # 反爬虫对策 fake-useragent # 随机User-Agent pyquery # jQuery风格的HTML解析 # 图片处理(如果需要下载图片) Pillow # 图像处理库 # 网络工具 chardet # 字符编码检测 # 定时任务(如果Python端需要独立运行) schedule # 简单的定时任务库 apscheduler # 高级定时任务调度器 # WebDriver管理(自动下载浏览器驱动) webdriver-manager # 自动管理Selenium WebDriver # JSON处理增强 jsonschema # JSON数据验证 # 代理支持 pysocks # SOCKS代理支持 # 开发工具 pytest # 测试框架 pytest-asyncio # 异步测试支持 black # 代码格式化 flake8 # 代码风格检查 isort # import排序