「机器学习-李宏毅」:Unsupervised Learning:Word Embedding

这篇文章主要是介绍一种无监督学习——Word Embedding(词嵌入)。

文章开篇介绍了word编码的1-of-N encoding方式和word class方式,但这两种方式得到的单词向量表示都不能很好表达单词的语义和单词之间的语义联系。

Word Embedding可以很好的解决这个问题。

Word Embedding有count based和prediction based两种方法。文章主要介绍了prediction based的方法,包括如何predict the word vector? 为什么这样的模型works?介绍了prediction based的变体;详细阐述了该模型中sharing parameters的做法和其必要性。

文章最后简单列举了word embedding的相关应用,包括multi-lingual embedding, multi-domain embedding, document embedding 等。