困学纪闻注：线性回归

Posted on 2019-06-19 | Edited on 2019-07-16 | In 深度学习 | Comments:

模型 \[f(\mathbf{x} ; \mathbf{w})=\mathbf{w}^{\mathrm{T}} \mathbf{x} \] 参数学习经验风险最小化 \[\begin{aligned} \mathcal{R}(\mathbf{w}) &=\sum_{n=1}^{N} \mat ...

困学纪闻注：Logistic 回归

Posted on 2019-06-19 | Edited on 2019-07-16 | In 深度学习 | Comments:

模型 \[\begin{aligned} p(y=1 | \mathbf{x}) &=\sigma\left(\mathbf{w}^{\mathrm{T}} \mathbf{x}\right) \\ & \triangleq \frac{1}{1+\exp \left(-\mat ...

建炎以来系年要录：支持向量机

Posted on 2019-06-19 | Edited on 2019-07-16 | In 统计学习方法 | Comments:

模型 \[w^{*} \cdot x+b^{*}=0 \] \[f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right) \] 策略核技巧线性可分支持向量机函数间隔 \[\hat{\gamma}_{i}=y_{i}\ ...

建炎以来系年要录：优化算法小结

Posted on 2019-06-19 | Edited on 2019-07-16 | In 统计学习方法 | Comments:

梯度下降法批量梯度下降 (BGD) \[\theta_{j}^{\prime}=\theta_{j}+\frac{1}{m} \sum_{i=1}^{m}\left(y^{i}-h_{\theta}\left(x^{i}\right)\right) x_{j}^{i} \] 随机梯度下降 ...

神奇动物在哪里？——归一化总结

Posted on 2019-06-19 | Edited on 2019-07-16 | In machine learning trick | Comments:

Batch Normalization (BN)、Layer Normalization (LN)、Instance Normalization (IN)、Group Normalization (GN) 套路都是：减去均值，除以标准差 + 线性映射1 区别在于：操作的 feature map 维度 ...

Python import 小结

Posted on 2019-06-19 | Edited on 2019-07-16 | In python | Comments:

Python 的 import 很简单，记住关键一句话就行。关键是能够在 sys.path 里面找到通向模块文件的路径分三种情况：主程序与模块在同一目录下：这时候 Python 能自己找到自己的兄弟 import mod1 主程序是在上一层 Python 不会把所有的子文件夹都加入路径 ...

Jupyter 远程访问配置

Posted on 2019-06-18 | Edited on 2019-07-16 | In python | Comments:

目标：在 VPS 上跑 pyspark，spark 的配置略过，主要讲 jupyter 方面。 jupyter 配置的关键点在于找准错误，所有错误，看最上面一个就行，然后直接 Google。我遇到的错误是，不能运行，具体是： KeyError: 'allow_remote_access& ...

明夷待访录（二）：Spark 安装与使用

Posted on 2019-06-17 | Edited on 2019-07-26 | In spark | Comments:

安装和使用安装 Hadoop 和 Spark 这里注意 openjdk 的版本必须是 8！安装 java，配置JAVA_HOME export JAVA_HOME=JDK 安装路径安装 Hadoop到 /usr/local/hadoop 修改配置文件 core-site.xml 和hdf ...

如何计算 AUC 值

Posted on 2019-06-17 | Edited on 2019-07-16 | In machine learning trick | Comments:

三种方法： 1. 积分法 auc = 0.0height = 0.0for each train exameple x_i y_i: if y_i == 1.0: height = height + 1/(tp+fn) else auc += height * ...

明夷待访录（一）：Spark 设计和原理

Posted on 2019-06-17 | Edited on 2019-07-12 | In spark | Comments:

简介 BDAS 架构 Spark 专注于数据的处理分析，而数据的存储还是要借助于 Hadoop 分布式文件系统 HDFS、Amazon S3 等来实现的运行架构基本概念 RDD：弹性分布式数据集（Resilient Distributed Dataset） DAG：有向无环图 Execut ...