78 lines
2.3 KiB
Plaintext
78 lines
2.3 KiB
Plaintext
|
|
# 核心爬虫库
|
|||
|
|
requests # HTTP请求库
|
|||
|
|
beautifulsoup4 # HTML/XML解析库
|
|||
|
|
lxml # 高性能HTML/XML解析器
|
|||
|
|
selenium # 浏览器自动化(用于动态页面)
|
|||
|
|
scrapy # 专业爬虫框架(可选)
|
|||
|
|
crawl4ai # 基于 Playwright 的智能爬虫框架
|
|||
|
|
playwright # 浏览器自动化框架(Crawl4AI 依赖)
|
|||
|
|
|
|||
|
|
# 异步支持
|
|||
|
|
aiohttp # 异步HTTP客户端
|
|||
|
|
asyncio # 异步IO支持
|
|||
|
|
httpx # 现代HTTP客户端,支持异步
|
|||
|
|
|
|||
|
|
# 数据校验与类型检查
|
|||
|
|
pydantic # 数据验证和设置管理
|
|||
|
|
pydantic-settings # Pydantic配置管理
|
|||
|
|
typing-extensions # 类型注解扩展
|
|||
|
|
mypy # 静态类型检查器
|
|||
|
|
|
|||
|
|
# 数据处理
|
|||
|
|
pandas # 数据分析和处理
|
|||
|
|
openpyxl # Excel文件读写
|
|||
|
|
python-dateutil # 日期时间处理
|
|||
|
|
pytz # 时区处理
|
|||
|
|
|
|||
|
|
# 日志与调试
|
|||
|
|
loguru # 现代化日志库
|
|||
|
|
colorlog # 彩色日志输出
|
|||
|
|
|
|||
|
|
# 配置管理
|
|||
|
|
python-dotenv # 环境变量管理
|
|||
|
|
pyyaml # YAML配置文件支持
|
|||
|
|
|
|||
|
|
# 数据库连接(用于存储爬取的数据)
|
|||
|
|
pymysql # MySQL数据库连接
|
|||
|
|
sqlalchemy # ORM框架
|
|||
|
|
|
|||
|
|
# HTTP客户端增强
|
|||
|
|
urllib3 # HTTP库
|
|||
|
|
certifi # SSL证书
|
|||
|
|
charset-normalizer # 字符编码检测
|
|||
|
|
|
|||
|
|
# HTML处理增强
|
|||
|
|
html5lib # HTML5解析器
|
|||
|
|
cssselect # CSS选择器
|
|||
|
|
|
|||
|
|
# 反爬虫对策
|
|||
|
|
fake-useragent # 随机User-Agent
|
|||
|
|
pyquery # jQuery风格的HTML解析
|
|||
|
|
|
|||
|
|
# 图片处理(如果需要下载图片)
|
|||
|
|
Pillow # 图像处理库
|
|||
|
|
|
|||
|
|
# 网络工具
|
|||
|
|
chardet # 字符编码检测
|
|||
|
|
|
|||
|
|
# 定时任务(如果Python端需要独立运行)
|
|||
|
|
schedule # 简单的定时任务库
|
|||
|
|
apscheduler # 高级定时任务调度器
|
|||
|
|
|
|||
|
|
# WebDriver管理(自动下载浏览器驱动)
|
|||
|
|
webdriver-manager # 自动管理Selenium WebDriver
|
|||
|
|
|
|||
|
|
# JSON处理增强
|
|||
|
|
jsonschema # JSON数据验证
|
|||
|
|
|
|||
|
|
# 代理支持
|
|||
|
|
pysocks # SOCKS代理支持
|
|||
|
|
|
|||
|
|
# 开发工具
|
|||
|
|
pytest # 测试框架
|
|||
|
|
pytest-asyncio # 异步测试支持
|
|||
|
|
black # 代码格式化
|
|||
|
|
flake8 # 代码风格检查
|
|||
|
|
isort # import排序
|
|||
|
|
|