学习强国爬虫 搜索+文章内容

This commit is contained in:
2025-11-21 11:49:41 +08:00
parent 97da821799
commit 0e7cee3070
41 changed files with 14904 additions and 79 deletions

View File

@@ -1,77 +1,8 @@
# 核心爬虫库
requests # HTTP请求库
beautifulsoup4 # HTML/XML解析库
lxml # 高性能HTML/XML解析器
selenium # 浏览器自动化(用于动态页面)
scrapy # 专业爬虫框架(可选)
crawl4ai # 基于 Playwright 的智能爬虫框架
playwright # 浏览器自动化框架Crawl4AI 依赖)
# 异步支持
aiohttp # 异步HTTP客户端
asyncio # 异步IO支持
httpx # 现代HTTP客户端支持异步
# 数据校验与类型检查
pydantic # 数据验证和设置管理
pydantic-settings # Pydantic配置管理
typing-extensions # 类型注解扩展
mypy # 静态类型检查器
# 数据处理
pandas # 数据分析和处理
openpyxl # Excel文件读写
python-dateutil # 日期时间处理
pytz # 时区处理
# 日志与调试
loguru # 现代化日志库
colorlog # 彩色日志输出
# 配置管理
python-dotenv # 环境变量管理
pyyaml # YAML配置文件支持
# 数据库连接(用于存储爬取的数据)
pymysql # MySQL数据库连接
sqlalchemy # ORM框架
# HTTP客户端增强
urllib3 # HTTP库
certifi # SSL证书
charset-normalizer # 字符编码检测
# HTML处理增强
html5lib # HTML5解析器
cssselect # CSS选择器
# 反爬虫对策
fake-useragent # 随机User-Agent
pyquery # jQuery风格的HTML解析
# 图片处理(如果需要下载图片)
Pillow # 图像处理库
# 网络工具
chardet # 字符编码检测
# 定时任务如果Python端需要独立运行
schedule # 简单的定时任务库
apscheduler # 高级定时任务调度器
# WebDriver管理自动下载浏览器驱动
webdriver-manager # 自动管理Selenium WebDriver
# JSON处理增强
jsonschema # JSON数据验证
# 代理支持
pysocks # SOCKS代理支持
# 开发工具
pytest # 测试框架
pytest-asyncio # 异步测试支持
black # 代码格式化
flake8 # 代码风格检查
isort # import排序
beautifulsoup4==4.14.2
chardet==5.2.0
crawl4ai==0.7.6
loguru==0.7.3
pydantic==2.12.4
pydantic_settings==2.12.0
Requests==2.32.5
selenium==4.38.0