学习强国爬虫 搜索+文章内容
This commit is contained in:
@@ -1,77 +1,8 @@
|
||||
# 核心爬虫库
|
||||
requests # HTTP请求库
|
||||
beautifulsoup4 # HTML/XML解析库
|
||||
lxml # 高性能HTML/XML解析器
|
||||
selenium # 浏览器自动化(用于动态页面)
|
||||
scrapy # 专业爬虫框架(可选)
|
||||
crawl4ai # 基于 Playwright 的智能爬虫框架
|
||||
playwright # 浏览器自动化框架(Crawl4AI 依赖)
|
||||
|
||||
# 异步支持
|
||||
aiohttp # 异步HTTP客户端
|
||||
asyncio # 异步IO支持
|
||||
httpx # 现代HTTP客户端,支持异步
|
||||
|
||||
# 数据校验与类型检查
|
||||
pydantic # 数据验证和设置管理
|
||||
pydantic-settings # Pydantic配置管理
|
||||
typing-extensions # 类型注解扩展
|
||||
mypy # 静态类型检查器
|
||||
|
||||
# 数据处理
|
||||
pandas # 数据分析和处理
|
||||
openpyxl # Excel文件读写
|
||||
python-dateutil # 日期时间处理
|
||||
pytz # 时区处理
|
||||
|
||||
# 日志与调试
|
||||
loguru # 现代化日志库
|
||||
colorlog # 彩色日志输出
|
||||
|
||||
# 配置管理
|
||||
python-dotenv # 环境变量管理
|
||||
pyyaml # YAML配置文件支持
|
||||
|
||||
# 数据库连接(用于存储爬取的数据)
|
||||
pymysql # MySQL数据库连接
|
||||
sqlalchemy # ORM框架
|
||||
|
||||
# HTTP客户端增强
|
||||
urllib3 # HTTP库
|
||||
certifi # SSL证书
|
||||
charset-normalizer # 字符编码检测
|
||||
|
||||
# HTML处理增强
|
||||
html5lib # HTML5解析器
|
||||
cssselect # CSS选择器
|
||||
|
||||
# 反爬虫对策
|
||||
fake-useragent # 随机User-Agent
|
||||
pyquery # jQuery风格的HTML解析
|
||||
|
||||
# 图片处理(如果需要下载图片)
|
||||
Pillow # 图像处理库
|
||||
|
||||
# 网络工具
|
||||
chardet # 字符编码检测
|
||||
|
||||
# 定时任务(如果Python端需要独立运行)
|
||||
schedule # 简单的定时任务库
|
||||
apscheduler # 高级定时任务调度器
|
||||
|
||||
# WebDriver管理(自动下载浏览器驱动)
|
||||
webdriver-manager # 自动管理Selenium WebDriver
|
||||
|
||||
# JSON处理增强
|
||||
jsonschema # JSON数据验证
|
||||
|
||||
# 代理支持
|
||||
pysocks # SOCKS代理支持
|
||||
|
||||
# 开发工具
|
||||
pytest # 测试框架
|
||||
pytest-asyncio # 异步测试支持
|
||||
black # 代码格式化
|
||||
flake8 # 代码风格检查
|
||||
isort # import排序
|
||||
|
||||
beautifulsoup4==4.14.2
|
||||
chardet==5.2.0
|
||||
crawl4ai==0.7.6
|
||||
loguru==0.7.3
|
||||
pydantic==2.12.4
|
||||
pydantic_settings==2.12.0
|
||||
Requests==2.32.5
|
||||
selenium==4.38.0
|
||||
|
||||
Reference in New Issue
Block a user