78 lines
2.3 KiB
Plaintext
78 lines
2.3 KiB
Plaintext
# 核心爬虫库
|
||
requests # HTTP请求库
|
||
beautifulsoup4 # HTML/XML解析库
|
||
lxml # 高性能HTML/XML解析器
|
||
selenium # 浏览器自动化(用于动态页面)
|
||
scrapy # 专业爬虫框架(可选)
|
||
crawl4ai # 基于 Playwright 的智能爬虫框架
|
||
playwright # 浏览器自动化框架(Crawl4AI 依赖)
|
||
|
||
# 异步支持
|
||
aiohttp # 异步HTTP客户端
|
||
asyncio # 异步IO支持
|
||
httpx # 现代HTTP客户端,支持异步
|
||
|
||
# 数据校验与类型检查
|
||
pydantic # 数据验证和设置管理
|
||
pydantic-settings # Pydantic配置管理
|
||
typing-extensions # 类型注解扩展
|
||
mypy # 静态类型检查器
|
||
|
||
# 数据处理
|
||
pandas # 数据分析和处理
|
||
openpyxl # Excel文件读写
|
||
python-dateutil # 日期时间处理
|
||
pytz # 时区处理
|
||
|
||
# 日志与调试
|
||
loguru # 现代化日志库
|
||
colorlog # 彩色日志输出
|
||
|
||
# 配置管理
|
||
python-dotenv # 环境变量管理
|
||
pyyaml # YAML配置文件支持
|
||
|
||
# 数据库连接(用于存储爬取的数据)
|
||
pymysql # MySQL数据库连接
|
||
sqlalchemy # ORM框架
|
||
|
||
# HTTP客户端增强
|
||
urllib3 # HTTP库
|
||
certifi # SSL证书
|
||
charset-normalizer # 字符编码检测
|
||
|
||
# HTML处理增强
|
||
html5lib # HTML5解析器
|
||
cssselect # CSS选择器
|
||
|
||
# 反爬虫对策
|
||
fake-useragent # 随机User-Agent
|
||
pyquery # jQuery风格的HTML解析
|
||
|
||
# 图片处理(如果需要下载图片)
|
||
Pillow # 图像处理库
|
||
|
||
# 网络工具
|
||
chardet # 字符编码检测
|
||
|
||
# 定时任务(如果Python端需要独立运行)
|
||
schedule # 简单的定时任务库
|
||
apscheduler # 高级定时任务调度器
|
||
|
||
# WebDriver管理(自动下载浏览器驱动)
|
||
webdriver-manager # 自动管理Selenium WebDriver
|
||
|
||
# JSON处理增强
|
||
jsonschema # JSON数据验证
|
||
|
||
# 代理支持
|
||
pysocks # SOCKS代理支持
|
||
|
||
# 开发工具
|
||
pytest # 测试框架
|
||
pytest-asyncio # 异步测试支持
|
||
black # 代码格式化
|
||
flake8 # 代码风格检查
|
||
isort # import排序
|
||
|