搜索关键字爬虫

This commit is contained in:
2025-11-12 16:10:34 +08:00
parent 7be02fe396
commit 675e6da7d7
37 changed files with 3382 additions and 572 deletions

View File

@@ -42,6 +42,8 @@ export interface CrontabTask extends BaseDTO {
* 定时任务执行日志
*/
export interface CrontabLog extends BaseDTO {
/** 日志ID */
logId?: string;
/** 任务ID */
taskId?: string;
/** 任务名称 */
@@ -90,3 +92,93 @@ export interface NewsCrawlerConfig {
status?: number;
}
/**
* 数据采集项
*/
export interface DataCollectionItem extends BaseDTO {
/** 采集项ID */
itemId?: string;
/** 日志ID */
logId?: string;
/** 任务ID */
taskId?: string;
/** 任务名称 */
taskName?: string;
/** 标题 */
title?: string;
/** 内容HTML格式 */
content?: string;
/** 来源URL */
sourceUrl?: string;
/** 发布时间 */
publishTime?: string;
/** 作者 */
author?: string;
/** 摘要 */
summary?: string;
/** 封面图片 */
coverImage?: string;
/** 分类 */
category?: string;
/** 来源(人民日报、新华社等) */
source?: string;
/** 标签(多个用逗号分隔) */
tags?: string;
/** 图片列表JSON格式 */
images?: string;
/** 状态0:未处理 1:已转换 2:已忽略) */
status?: number;
/** 转换时间 */
convertTime?: string;
/** 转换后的资源ID */
resourceId?: string;
/** 错误信息 */
errorMessage?: string;
/** 爬取时间 */
crawlTime?: string;
/** 处理时间 */
processTime?: string;
/** 处理人 */
processor?: string;
}
/**
* 爬虫任务参数
*/
export interface CrontabParam {
/** 参数名称 */
name: string;
/** 参数描述 */
description: string;
/** 参数类型 */
type: string;
/** 默认值 */
value: any;
}
/**
* 爬虫任务模板方法
*/
export interface CrontabMethod {
/** 方法名称 */
name: string;
/** Bean类名 */
clazz?: string;
/** 执行方法名 */
excuete_method?: string;
/** Python脚本路径 */
path: string;
/** 参数定义列表 */
params?: CrontabParam[];
}
/**
* 爬虫任务模板项
*/
export interface CrontabItem {
/** 模板名称 */
name: string;
/** 可用方法列表 */
methods: CrontabMethod[];
}