LINE1 算法原理 LINE 也是一种基于邻域相似假设的方法,只不过与 DeepWalk 使用 DFS 构造邻域不同的是,LINE 可以看作是一种使用 BFS 构造邻域的算法。此外,LINE 还可以应用在 带权图 中(DeepWalk 仅能用于无权图)。 之前还提到不同的 graph embe ...
GraphEmbedding(1): DeepWalk
KDD 20141 图表示学习 数据结构 最小生成树(Prim, Kruskal) 最短路径(Dijkstra, Floyed) 其他:拓扑排序,关键路径 概率图模型 表示 推断 学习 图神经网络 GraphEmbedding(基于随机游走) Graph CNN(基于邻居汇聚) Gr ...
狸花猫记 (1): 模型基础
强化学习在机器学习中的位置 与监督学习相比,数据有时间关系,奖励值延迟 与非监督学习相比,数据有时间关系,输出奖励值 强化学习建模 Zq5uRJ.png 强化学习要素 三个基本要素 环境状态 \(S_t\) 动作 \(A_t\) 环境的奖励 \(R_t\),这是 延迟的,在状态 \(S_ ...
明夷待访录(五):Spark Steaming
Spark Streaming 流计算简介 流计算处理过程 数据实时采集 Facebook 的 Scribe LinkedIn 的 Kafka 淘宝的 TimeTunnel 基于 Hadoop 的 Chukwa 和 Flume 等 数据实时计算 实时查询服务 Spark Streamin ...
明夷待访录(四):Spark SQL
Spark SQL 简介 从 Shark 说起 Shark 即 Hive on Spark Spark SQL 设计 从 HQL 被解析成抽象语法树(AST)起,就全部由 Spark SQL 接管了 Spark-SQL 架构 Spark SQL 增å 了 SchemaRDD(即带有 Schem ...
狸花猫记: 终章
强化学习定义 强化学习是学习一个最优策略 (policy),可以让智能体(agent) 在特定环境 (environment) 中,根据当前的状态(state),做出行动(action),从而获得最大回报 Gain。 有限马尔卡夫决策过程 找到最优价值 \[\text{Reinforcement L ...
狸花猫记 (5): 时序差分法
蒙特卡罗法需要所有的采样序列都是经历完整的状态序列。如果没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。 时序差分 TD 简介 没有完整的状态序列,只有部分的状态序列,那么如何可以近似求出某个状态的收获呢? 参考贝尔曼方程 \[v_{\pi}(s) = \mathbb{E}_{\pi}(R_ ...
狸花猫记 (4): 蒙特卡罗法求解
更新某一个状态的价值时,回溯到该状态的所有可能的后续状态 很多时候,我们并不知道环境状态转换模型 \(P_{s s'}^a\) 不基于模型的强化学习问题定义 强化学习的 5 个因素:\(S, A, R\) ,衰减因子 \(\gamma\),策略 \(\pi\) Model 方式的定义 这里加 ...
狸花猫记 (3): 用动态规划求解
动态规划和强化学习问题的联系 动态规划的定义: 问题的最优解可以由若干小问题的最优解构成 问题是洋葱的 可以找到子问题状态之间的递推关系 洋葱是可剥的 参考状态值函数贝尔曼方程 \[v_{\pi}(s)=\sum_{a \in A} \pi(a | s)\left(R_{s}^{a}+\ga ...
狸花猫记 (2): 马尔可夫决策过程
强化学习引入 MDP 的原因 第一、限定环境的状态转换模型 \(P^a_{s s'}\) 假设转化到下一个状态 \(s'\) 的概率仅与上一个的状态 \(s\) 有关 \[P_{ss'}^a = \mathbb{E}(S_{t+1}=s'|S_t=s, A_t=a ...