
该过程分为五个核心阶段:数据输入、图构建、特征处理、核心计算和输出预测,重点强调异构图特征、元路径索引构建和节点级注意力机制的关键作用。以下是详细的过程描述: 模型整体流程概述 THAN模型基于异构图(包含用户、级联节点和各种关系),通过元路径索引捕获节点之间的语义关联,结合时间衰减机制和多头注意力来计算节点嵌入,最终用于级联传播的单步预测。该过程可分为以下5个核心阶段: 1. 数据输入和初始化 输入数据: 异构图数据(graph):包括节点(用户、级联)、边(社交、互动、扩散)和边属性(例如时间戳)。 初始特征:用户特征(user_initial_features)和级联特征(cascade_initial_features),以字典形式存储(id_to_idx将节点ID映射到特征索引)。 配置参数:元路径类型(例如,U-U-social、U-U-interact、C-U-C)、注意力头数、时间衰减系数lambda_time等。 初始化操作: 设备配置(CPU/GPU)和内存优化(缓存清理、异步数据传输)。 模型组件初始化:特征投影层(type_transform)、多头注意力参数(att_params)等。 2. 异构图元路径索引构建 使用build_metapath_index方法预先计算元路径索引,捕获不同类型节点之间的关联和时间衰减特征,以加速后续的注意力计算: 元路径定义: U-U-social:用户 - 社交 - 用户(无时间戳,仅存储邻居关系)。 U-U-interact:用户 - 互动 - 用户(存储互动时间戳、时间衰减值和前缀和)。 C-U-C:级联 - 用户 - 级联(通过中间用户连接的级联关系,存储扩散时间戳、时间衰减值和前缀和)。 索引内容: 对于包含时间信息的元路径(U-U-interact、C-U-C),按节点对存储: 排序后的时间戳列表(ts)。 时间衰减值(decay,基于1 - exp(-lambda*(t-T_earliest))计算)。 衰减值的前缀和(prefix,加速累积权重计算)。 索引缓存:计算结果本地保存(save_metapath_full_cache),避免重复计算。 3. 特征投影和节点嵌入初始化 特征投影: 通过type_tr
你是一名为顶级学术会议(CVPR/ICRA)服务的专业科学绘图师。请创作一张清晰、高分辨率的“数据处理流程图”,以说明具...