「机器学习-李宏毅」:Unsupervised-PCA
这篇文章详细讲解了无监督学习(Unsupervised learning)的PCA(主成分分析法)。
文章开篇从聚类(Clustering)引出Distributed Represention,其中粗略阐述了聚类中K-means和HAC(层次聚类)的思想。
文章的后半部分具体阐述了PCA的数学细节,PCA的去相关性性质,PCA的另一种解释角度(component的角度),PCA的不足等。
这篇文章详细讲解了无监督学习(Unsupervised learning)的PCA(主成分分析法)。
文章开篇从聚类(Clustering)引出Distributed Represention,其中粗略阐述了聚类中K-means和HAC(层次聚类)的思想。
文章的后半部分具体阐述了PCA的数学细节,PCA的去相关性性质,PCA的另一种解释角度(component的角度),PCA的不足等。
这篇文章主要是介绍一种无监督学习——Word Embedding(词嵌入)。
文章开篇介绍了word编码的1-of-N encoding方式和word class方式,但这两种方式得到的单词向量表示都不能很好表达单词的语义和单词之间的语义联系。
Word Embedding可以很好的解决这个问题。
Word Embedding有count based和prediction based两种方法。文章主要介绍了prediction based的方法,包括如何predict the word vector? 为什么这样的模型works?介绍了prediction based的变体;详细阐述了该模型中sharing parameters的做法和其必要性。
文章最后简单列举了word embedding的相关应用,包括multi-lingual embedding, multi-domain embedding, document embedding 等。
这篇文章开篇讲述了什么是Semi-supervised Learning(半监督学习)?
再次,文章具体阐述了四种Semi-supervised Learning,包括Generative Model,Low-density,Smoothness Assumption和Better Representation。
对于Generative Model,文章重点讲述了如何用EM算法来训练模型。
对于Low-density,文章重点讲述了如何让模型进行Self-training,并且在训练中引入Entropy-based Regularization term来尽可能low-density的假设。
对于Smoothness Assumption,文章重点讲述了Graph-based Approach(基于图的方法),并且在训练中引入Smoothness Regularization term来尽可能满足Smoothness Assumption的假设。
对于Better Representation,本篇文章只是简单阐述了其思想,具体介绍见这篇博客。
这篇文章中,介绍了Deep Learning的一般步骤。
这篇文章中,手刻实现了「机器学习-李宏毅」的HW2-Binary Income Prediction的作业。分别用Logistic Regression和Generative Model实现。
包括对数据集的处理,训练模型,可视化,预测等。
有关HW2的相关数据、源代码、预测结果等,欢迎光临小透明的GitHub
在本篇文章中,用手刻Adagrad完成了「机器学习-李宏毅」的HW1-预测PM2.5的作业。其中包括对数据的处理,训练模型,预测,并使用sklearn toolkit的结果进行比较。
有关HW1的相关数据、源代码、预测结果等,欢迎光临小透明的GitHub
这篇文章叙述了进行regression时,where dose the error come from?
这篇文章除了解释了error为什么来自bias和variance,还给出了当error产生时应该怎么办?如何让模型在实践应用中也能表现地和测试时几乎一样的好?
实现这篇文章中前面两个tips。
在YouTube上看台大李宏毅老师的课,看完Regression讲座的感受就是: 好想去抓Pokemon!!!
这篇文章将总结李宏毅老师Regression的讲座,并尝试实现其demo。