「机器学习-李宏毅」:Unsupervised Learning:Word Embedding

这篇文章主要是介绍一种无监督学习——Word Embedding(词嵌入)。

文章开篇介绍了word编码的1-of-N encoding方式和word class方式,但这两种方式得到的单词向量表示都不能很好表达单词的语义和单词之间的语义联系。

Word Embedding可以很好的解决这个问题。

Word Embedding有count based和prediction based两种方法。文章主要介绍了prediction based的方法,包括如何predict the word vector? 为什么这样的模型works?介绍了prediction based的变体;详细阐述了该模型中sharing parameters的做法和其必要性。

文章最后简单列举了word embedding的相关应用,包括multi-lingual embedding, multi-domain embedding, document embedding 等。


「LeetCode」:Math

LeetCode Math 专题记录。

10月初。

Albert Einstein:

“I believe that not everything that can be counted counts, and not everything that counts can be counted”

「并非所有重要的东西都是可以被计算的,也并不是所有能被计算的东西都那么重要。」


「LeetCode」:String

LeetCode String 专题记录。

9月毕。

「我祝福你有时有坏运气,你会意识到概率和运气在人生中扮演的角色,并理解你的成功并不完全是你应得的,其他人的失败也并不完全是他们应得的。」

「不想要刚好错过的悔恨,那就要有完全碾压的实力。」


「Tools」:Docker

本篇文章主要分四个部分,首先介绍了Docker是什么:为什么会有Docker技术的出现;虚拟化技术和容器虚拟化技术的区别;Docker的基本组成;Docker的运行为什么会比虚拟机快。

第二个部分主要介绍了Docker的常用命令,包括镜像命令和容器命令,文中还从底层的角度分析Docker镜像。

第三个部分介绍了Docker中的容器数据卷,和如何挂载数据卷。

最后一个部分,简单介绍了Dockerfile文件。


「机器学习-李宏毅」:Semi-supervised Learning

这篇文章开篇讲述了什么是Semi-supervised Learning(半监督学习)?

再次,文章具体阐述了四种Semi-supervised Learning,包括Generative Model,Low-density,Smoothness Assumption和Better Representation。

对于Generative Model,文章重点讲述了如何用EM算法来训练模型。

对于Low-density,文章重点讲述了如何让模型进行Self-training,并且在训练中引入Entropy-based Regularization term来尽可能low-density的假设。

对于Smoothness Assumption,文章重点讲述了Graph-based Approach(基于图的方法),并且在训练中引入Smoothness Regularization term来尽可能满足Smoothness Assumption的假设。

对于Better Representation,本篇文章只是简单阐述了其思想,具体介绍见这篇博客。


「Cryptography-Boneh」:Stream Cipher 3

Stream Cipher的第三篇文章。

文章主要分为两部分,前部分逐步定义Secure PRG的定义,通过引入statistical test(统计测试)和Advantage(优势)得出当且仅当PRG is unpredictable,PRG is secure的结论。

后部分介绍了密码学中的一个重要概念Semantic Security的定义,通过引入 computationally indistinguishable(计算上不可区分)的概念给出定义,并证明了OTP的语意安全和在安全PRG条件下的流密码的语意安全,得出如果流密码中使用的PRG is secure,那么流密码就具备semantic security。

文章开头,也简单介绍了密码学中negligible和non-negligible的含义。