对外py编写

2025-11-21 15:41:28 +08:00
parent 3a44a2ddc4
commit 7eab82c6af
5 changed files with 240 additions and 186 deletions
--- a/schoolNewsCrawler/crawler/xxqg/README_important_crawler.md
+++ b/schoolNewsCrawler/crawler/xxqg/README_important_crawler.md
@@ -1,140 +0,0 @@
 # 学习强国重要新闻爬虫使用说明
 ## 功能概述
 在 `XxqgCrawler` 类中新增了 `crawl_important` 方法，用于爬取学习强国"重要新闻"栏目的文章内容。
 ## 实现原理
 该方法结合了旧版 `myQiangguo` 爬虫和新版 Selenium 爬虫的优势：
 1. **获取文章列表**：参考旧版爬虫方式，使用 `requests` 库直接请求 JSON 接口获取文章列表
   - JSON接口地址: `https://www.xuexi.cn/lgdata/1jscb6pu1n2.json?_st=26095725`
   - 返回包含文章URL、标题、来源等基础信息的列表
 2. **解析文章详情**：使用现有的 `parse_news_detail` 方法（基于 Selenium）解析每篇文章的详细内容
   - 提取标题、发布时间、来源
   - 提取正文内容（文字、图片、视频）
   - 保存完整的文章结构
 ## 使用方法
 ### 基本用法
 ```python
 from crawler.xxqg.XxqgCrawler import XxqgCrawler
 # 初始化爬虫
 crawler = XxqgCrawler()
 # 爬取重要新闻（默认最多60篇）
 result = crawler.crawl_important()
 # 检查结果
 if result.success:
    print(f"成功爬取 {len(result.dataList)} 篇新闻")
    for news in result.dataList:
        print(f"标题: {news.title}")
        print(f"来源: {news.source}")
        print(f"发布时间: {news.publishTime}")
 else:
    print(f"爬取失败: {result.message}")
 # 关闭浏览器
 crawler.driver.quit()
 ```
 ### 自定义爬取数量
 ```python
 # 只爬取前10篇文章
 result = crawler.crawl_important(max_count=10)
 ```
 ### 运行测试脚本
 ```bash
 cd f:\Project\schoolNews\schoolNewsCrawler\crawler\xxqg
 python test_important_crawler.py
 ```
 ## 输出结果
 爬取完成后，结果会自动保存到 `Xxqg_important_news.json` 文件中，包含以下信息：
 ```json
 [
    {
        "title": "文章标题",
        "url": "文章URL",
        "source": "来源",
        "publishTime": "发布时间",
        "contentRows": [
            {
                "type": "text",
                "content": "段落文本"
            },
            {
                "type": "img",
                "content": "<img src='图片URL' />"
            }
        ]
    }
 ]
 ```
 ## 参数说明
 ### `crawl_important(max_count=60)`
 - **max_count**: 最多爬取的文章数量，默认60篇
 - **返回值**: `ResultDomain` 对象
  - `success`: 是否成功
  - `code`: 状态码（0表示成功，1表示失败）
  - `message`: 提示信息
  - `dataList`: 新闻列表（`List[NewsItem]`）
 ## 注意事项
 1. **浏览器初始化**：首次运行时会自动打开 Chrome 浏览器并访问学习强国主页获取 Cookie
 2. **验证码处理**：如果遇到验证码，程序会暂停30秒让用户手动完成验证
 3. **爬取速度**：每篇文章之间会有1-2秒的随机延迟，避免请求过快被封禁
 4. **资源清理**：使用完毕后记得调用 `crawler.driver.quit()` 关闭浏览器
 ## 与旧版爬虫的对比
 ### 旧版爬虫 (myQiangguo)
 - 使用 `requests` + `BeautifulSoup` 解析静态HTML
 - 依赖于特定的 `data+MD5.js` 接口格式
 - 需要处理不同格式的URL（.html和.json）
 ### 新版爬虫 (XxqgCrawler)
 - 结合 `requests` 获取列表 + `Selenium` 解析详情
 - 能够处理动态加载的内容
 - 统一的接口和返回格式
 - 更好的错误处理和日志记录
 ## 扩展功能
 如果需要爬取其他栏目，可以参考 `crawl_important` 方法的实现，修改对应的 JSON 接口URL即可。
 常见栏目的JSON接口：
 - 重要新闻: `https://www.xuexi.cn/lgdata/1jscb6pu1n2.json?_st=26095725`
 - 重要活动: `https://www.xuexi.cn/lgdata/1jpuhp6fn73.json?_st=26095746`
 - 重要会议: `https://www.xuexi.cn/lgdata/19vhj0omh73.json?_st=26095747`
 - 重要讲话: `https://www.xuexi.cn/lgdata/132gdqo7l73.json?_st=26095749`
 ## 技术架构
 ```
 crawl_important()
 ├── requests 获取JSON列表
 │   └── 解析文章URL和基础信息
 ├── 遍历URL列表
 │   ├── parse_news_detail() (Selenium)
 │   │   ├── 访问文章页面
 │   │   ├── 提取标题、时间、来源
 │   │   └── 解析内容（文字、图片、视频）
 │   └── 补充缺失的字段
 └── 保存结果到JSON文件
 ```
--- a/schoolNewsCrawler/crawler/xxqg/XxqgColumn.py
+++ b/schoolNewsCrawler/crawler/xxqg/XxqgColumn.py
@@ -0,0 +1,130 @@
 #!/usr/bin/env python
 # -*- coding: utf-8 -*-
 """
 学习强国栏目爬虫命令行工具
 用法: python RmrbSearch.py --key "关键词" --total 10 --type 0
 """
 import argparse
 import json
 import sys
 from pathlib import Path
 import time
 # Add project root directory to path to import crawler
 sys.path.insert(0, str(Path(__file__).parent.parent.parent))
 from crawler.xxqg.XxqgCrawler import XxqgCrawler
 from loguru import logger
 def main():
    """主函数"""
    parser = argparse.ArgumentParser(
        description='学习强国新闻栏目爬虫工具',
        formatter_class=argparse.RawDescriptionHelpFormatter,
        epilog="""
        """
    )
    parser.add_argument(
        '--column', '-c',
        type=str,
        required=True,
        help='栏目名称 important：重要新闻， xuexishiping：学习时评，zonghexinwen：综合新闻，zhongxuanbu：中宣部'
    )
    parser.add_argument(
        '--yesterday', '-y',
        type=str,
        default="True",
        help='是否抓取昨天的数据 (默认: True)'
    )
    parser.add_argument(
        '--start', '-s',
        type=str,
        default=None,
        help='开始日期 (格式: YYYY-MM-DD)'
    )
    parser.add_argument(
        '--end', '-e',
        type=str,
        default=None,
        help='结束日期 (格式: YYYY-MM-DD)'
    )
    parser.add_argument(
        '--output', '-o',
        type=str,
        help='输出文件路径'
    )
    args = parser.parse_args()
    # 获取参数
    column = args.column
    yesterday = str(args.yesterday)
    if yesterday.upper() == "FALSE":
        yesterday = False
    elif yesterday.upper() == "TRUE":
        yesterday = True
    else:
        parser.error("--yesterday 参数必须是 True 或 False")
    start = args.start
    end = args.end
    output_file = args.output
    logger.info("使用直接参数模式")
    # column 必须存在
    if not column or not column.strip():
        parser.error("栏目不能为空！")
    try:
        logger.info(f"开始搜索: 栏目='{column}', 昨天={yesterday}, 开始日期={start}, 结束日期={end}")
        crawler = XxqgCrawler()
        url_config= crawler.config.urls[column]
        time.sleep(5)
        result = crawler.crawl_base(url_config, yesterday=yesterday, start=start, end=end)
        # print(result)
        output = {
            "code": result.code,
            "message": result.message,
            "success": result.success,
            "data": None,
            "dataList": [item.model_dump() for item in result.dataList] if result.dataList else []
        }
        # result = None
        # with open("F:\Project\schoolNews\schoolNewsCrawler\output\output.json", "r", encoding="utf-8") as f:
        #     result = json.load(f)
        # print(result)
        # output = result
        if output_file:
            output_path = Path(output_file)
            output_path.parent.mkdir(parents=True, exist_ok=True)
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(output, f, ensure_ascii=False, indent=2)
            logger.info(f"结果已保存到: {output_file}")
        crawler.close()
        sys.exit(0 if result.success else 1)
        # print(json.dumps(output, ensure_ascii=False, indent=2))
        # sys.exit(0 if result["success"] else 1)
    except Exception as e:
        logger.error(f"执行失败: {str(e)}")
        error_output = {
            "code": 500,
            "message": f"执行失败: {str(e)}",
            "success": False,
            "data": None,
            "dataList": []
        }
        print(json.dumps(error_output, ensure_ascii=False, indent=2))
        sys.exit(1)
 if __name__ == "__main__":
    main()
--- a/schoolNewsCrawler/crawler/xxqg/XxqgCrawler.py
+++ b/schoolNewsCrawler/crawler/xxqg/XxqgCrawler.py
@@ -104,7 +104,7 @@ class XxqgCrawler(BaseCrawler):
                        'sec-ch-ua-platform': '"Windows"'
                    }
                ),
-                "zongheshiping": UrlConfig(
+                "zonghexinwen": UrlConfig(
                    url="https://www.xuexi.cn/7097477a9643eacffe4cc101e4906fdb/9a3668c13f6e303932b5e0e100fc248b.html",
                    method="GET",
                    params={
@@ -359,7 +359,7 @@ class XxqgCrawler(BaseCrawler):
                            "type": "text",
                            "content": text_content
                        })
-                        logger.debug(f"提取文字: {text_content[:50]}...")
+                        # logger.debug(f"提取文字: {text_content[:50]}...")
                except Exception as e:
                    logger.warning(f"处理内容元素失败: {str(e)}")
@@ -369,7 +369,7 @@ class XxqgCrawler(BaseCrawler):
        if is_page():
            pass
-        logger.info(f"解析文章详情完成: {news_item.model_dump()}")
+        logger.info(f"解析文章详情完成: {news_item.url}")
        return news_item
@@ -577,7 +577,7 @@ class XxqgCrawler(BaseCrawler):
        # 解析meta请求响应获取channelId
        try:
            meta_data = json.loads(target_request.response.body)
-            logger.info(f"Meta响应数据: {meta_data}")
+            # logger.info(f"Meta响应数据: {meta_data}")
            # 提取channelId
            if 'pageData' in meta_data and 'channel' in meta_data['pageData']:
--- a/schoolNewsCrawler/crawler/xxqg/XxqgSearch.py
+++ b/schoolNewsCrawler/crawler/xxqg/XxqgSearch.py
@@ -0,0 +1,106 @@
 #!/usr/bin/env python
 # -*- coding: utf-8 -*-
 """
 学习强国搜索爬虫命令行工具
 用法: python RmrbSearch.py --key "关键词" --total 10 --type 0
 """
 import argparse
 import json
 import sys
 from pathlib import Path
 import time
 # Add project root directory to path to import crawler
 sys.path.insert(0, str(Path(__file__).parent.parent.parent))
 from crawler.xxqg.XxqgCrawler import XxqgCrawler
 from loguru import logger
 def main():
    """主函数"""
    parser = argparse.ArgumentParser(
        description='学习强国新闻搜索工具',
        formatter_class=argparse.RawDescriptionHelpFormatter,
        epilog="""
        """
    )
    parser.add_argument(
        '--query', '-q',
        type=str,
        required=True,
        help='搜索关键词'
    )
    parser.add_argument(
        '--total', '-t',
        type=int,
        default=10,
        help='抓取数量 (默认: 10)'
    )
    parser.add_argument(
        '--output', '-o',
        type=str,
        help='输出文件路径'
    )
    args = parser.parse_args()
    # 获取参数
    key = args.query
    total = args.total
    output_file = args.output
    logger.info("使用直接参数模式")
    # 关键校验：key 必须存在
    if not key or not key.strip():
        parser.error("搜索关键词不能为空！")
    try:
        logger.info(f"开始搜索: 关键词='{key}', 数量={total}")
        crawler = XxqgCrawler()
        time.sleep(5)
        result = crawler.search(keyword=key.strip(), total=total)
        # print(result)
        output = {
            "code": result.code,
            "message": result.message,
            "success": result.success,
            "data": None,
            "dataList": [item.model_dump() for item in result.dataList] if result.dataList else []
        }
        # result = None
        # with open("F:\Project\schoolNews\schoolNewsCrawler\output\output.json", "r", encoding="utf-8") as f:
        #     result = json.load(f)
        # print(result)
        # output = result
        if output_file:
            output_path = Path(output_file)
            output_path.parent.mkdir(parents=True, exist_ok=True)
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(output, f, ensure_ascii=False, indent=2)
            logger.info(f"结果已保存到: {output_file}")
        crawler.close()
        sys.exit(0 if result.success else 1)
        # print(json.dumps(output, ensure_ascii=False, indent=2))
        # sys.exit(0 if result["success"] else 1)
    except Exception as e:
        logger.error(f"执行失败: {str(e)}")
        error_output = {
            "code": 500,
            "message": f"执行失败: {str(e)}",
            "success": False,
            "data": None,
            "dataList": []
        }
        print(json.dumps(error_output, ensure_ascii=False, indent=2))
        sys.exit(1)
 if __name__ == "__main__":
    main()
--- a/schoolNewsCrawler/crawler/xxqg/test_important_crawler.py
+++ b/schoolNewsCrawler/crawler/xxqg/test_important_crawler.py
@@ -1,42 +0,0 @@
 """
 测试学习强国重要新闻爬虫
 """
 from XxqgCrawler import XxqgCrawler
 from loguru import logger
 def test_crawl_important():
    """测试爬取重要新闻"""
    try:
        # 初始化爬虫
        logger.info("初始化学习强国爬虫...")
        crawler = XxqgCrawler()
        # 爬取重要新闻（默认最多60篇）
        logger.info("开始爬取重要新闻...")
        result = crawler.crawl_important(max_count=10)  # 测试时只爬取10篇
        # 检查结果
        if result.success:
            logger.info(f"爬取成功！{result.message}")
            logger.info(f"共爬取到 {len(result.dataList)} 篇新闻")
            # 打印前3篇新闻标题
            for idx, news in enumerate(result.dataList[:3], 1):
                logger.info(f"{idx}. {news.title}")
                logger.info(f"   来源: {news.source}")
                logger.info(f"   发布时间: {news.publishTime}")
                logger.info(f"   内容行数: {len(news.contentRows)}")
                logger.info("")
        else:
            logger.error(f"爬取失败: {result.message}")
        # 关闭浏览器
        if crawler.driver:
            crawler.driver.quit()
            logger.info("浏览器已关闭")
    except Exception as e:
        logger.exception(f"测试过程中发生错误: {str(e)}")
 if __name__ == "__main__":
    test_crawl_important()