特征选择 信息熵: 信息熵 \[H(X)=-\sum_{x \in X} P(x) \log P(x) ) \] 条件熵 \[H(Y | X)=\sum_{i=1}^{n} p_{i} H\left(Y | X=x_{i}\right) \] 关于这里有空我要单独写篇文章! 信息增益 \[g(D, ...
建炎以来系年要录:KKT 条件
有不等式约束的优化问题 把不等式约束,等式约束和优化问题合并为一个式子。假设有多个等式约束 \(h(x)\) 和不等式约束 \(g(x)\) \[L(\boldsymbol{x}, \boldsymbol{\lambda}, \boldsymbol{\mu})=f(\boldsymbol{x} ...
建炎以来系年要录:最大熵模型
最大熵模型 \(P(X, Y)\) 的经验分布 \[\tilde{P}(X=x, Y=y)=\frac{\nu(X=x, Y=y)}{N} \] 边缘分布 \(P(X)\) \[\tilde{P}(X=x)=\frac{v(X=x)}{N} \] \(P(X,Y)\) 的经验分布的期望值和关 ...
困学纪闻注:GAN——志留纪叹息
显式密度模型和隐式密度模型 网络分解 生成对抗网络的流程图 判别网络 \[p(y=1 | \mathbf{x})=D(\mathbf{x}, \phi) \] 判别网络的 目标函数为最小化交叉熵,即最大化对数似然。 生成网络 \[\max _{\theta}\left(\mathbb{E}_{\ ...
困学纪闻注:概率图模型——泥盆纪会议
图模型的基本问题 图模型有三个基本问题: 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关系。 推断问题:在已知部分变量时,计算其它变量的后验概率分布。 学习问题:图模型的学习包括图结构的学习和参数的学习。在本章我们只关注在给定图结构时的参数学习,即参数估计问题。 模型表示 带阴 ...
困学纪闻注:网络优化与泛化——石炭纪
网络优化 网络结构多样性 高维变量的非凸优化 平坦底部 优化算法 优化算法三种 mini-batch SGD 学习率衰减 梯度方向优化 优化算法面临的问题 初始化参数 预处理数据 选择学习率 学习率衰减优化算法三种 1. AdaGrad: \(g_t\)参数的偏导数积累 2. RMS ...
困学纪闻注:循环神经网络——三叠纪沉睡
简单循环神经网络 \[\begin{aligned} \mathbf{z}_{t} &=U \mathbf{h}_{t-1}+W \mathbf{x}_{t}+\mathbf{b} \\ \mathbf{h}_{t} &=f\left(\mathbf{z}_{t}\right) \e ...
困学纪闻注:卷积神经网络——中生代噩梦
卷积 卷积 \[y_{t}=\sum_{k=1}^{m} w_{k} \cdot x_{t-k+1} \] 一幅图像在经过卷积操作后得到结果称为特征映射(Feature Map)。 互相关和卷积的区别在于卷积核仅仅是否进行翻转。 卷积层的神经元数量 神经元数量 卷积神经网络 卷积层 第 \ ...
困学纪闻注:前馈神经网络一览——反向传播算法白垩纪
前馈神经网络是怎么传播的? \[\begin{array}{l}{\mathbf{z}^{(l)}=W^{(l)} \cdot \mathbf{a}^{(l-1)}+\mathbf{b}^{(l)},} \\ {\mathbf{a}^{(l)}=f_{l}\left(\mathbf{z}^{(l)} ...
困学纪闻注:前馈神经网络一览——激活函数寒武纪
常见激活函数 Sigmoid 型激活函数 Logistic 函数,值域\(0 \sim 1\) \[\sigma(x)=\frac{1}{1+\exp (-x)} \] Tanh 函数,值域\(-1 \sim 1\) \[\tanh (x)=2 \sigma(2 x)-1 \] 修正线性单元 ...