人民日报爬虫

This commit is contained in:
2025-11-10 15:22:44 +08:00
parent 08df5f1e8a
commit e8b76278e9
36 changed files with 4241 additions and 0 deletions

View File

@@ -0,0 +1,77 @@
# 核心爬虫库
requests # HTTP请求库
beautifulsoup4 # HTML/XML解析库
lxml # 高性能HTML/XML解析器
selenium # 浏览器自动化(用于动态页面)
scrapy # 专业爬虫框架(可选)
crawl4ai # 基于 Playwright 的智能爬虫框架
playwright # 浏览器自动化框架Crawl4AI 依赖)
# 异步支持
aiohttp # 异步HTTP客户端
asyncio # 异步IO支持
httpx # 现代HTTP客户端支持异步
# 数据校验与类型检查
pydantic # 数据验证和设置管理
pydantic-settings # Pydantic配置管理
typing-extensions # 类型注解扩展
mypy # 静态类型检查器
# 数据处理
pandas # 数据分析和处理
openpyxl # Excel文件读写
python-dateutil # 日期时间处理
pytz # 时区处理
# 日志与调试
loguru # 现代化日志库
colorlog # 彩色日志输出
# 配置管理
python-dotenv # 环境变量管理
pyyaml # YAML配置文件支持
# 数据库连接(用于存储爬取的数据)
pymysql # MySQL数据库连接
sqlalchemy # ORM框架
# HTTP客户端增强
urllib3 # HTTP库
certifi # SSL证书
charset-normalizer # 字符编码检测
# HTML处理增强
html5lib # HTML5解析器
cssselect # CSS选择器
# 反爬虫对策
fake-useragent # 随机User-Agent
pyquery # jQuery风格的HTML解析
# 图片处理(如果需要下载图片)
Pillow # 图像处理库
# 网络工具
chardet # 字符编码检测
# 定时任务如果Python端需要独立运行
schedule # 简单的定时任务库
apscheduler # 高级定时任务调度器
# WebDriver管理自动下载浏览器驱动
webdriver-manager # 自动管理Selenium WebDriver
# JSON处理增强
jsonschema # JSON数据验证
# 代理支持
pysocks # SOCKS代理支持
# 开发工具
pytest # 测试框架
pytest-asyncio # 异步测试支持
black # 代码格式化
flake8 # 代码风格检查
isort # import排序