最主要的是线性代数和概率论。
现在最流行的机器学习模型,神经网络基本是就是一大堆向量、矩阵、张量。从激活函数到损失函数,从反向传播到梯度下降,都是对这些向量、矩阵、张量的操作和运算。
其他“传统”机器学习算法也大量使用线性代数。比如线性回归
听名字就知道和线性代数关系密切了。
而主成分分析,从线性代数的观点看,就是对角化协方差矩阵。
概率特别是当你读论文或者想深入一点的时候,概率论的知识非常有帮助。
包括边缘概率、链式法则、期望、贝叶斯推理、大似然、大后验、自信息、香农熵、KL散度,等等。
其他神经网络很讲究“可微”,因为可微的模型可以通过梯度下降的方法优化。梯度下降离不开求导。所以多变量微积分也需要。另外,因为机器学习是基于统计的方法,所以统计学的知识也缺不了。不过大部分理工科应该都学过这两块内容,所以这也许不属于需要补充的内容。
在nlp中常用的算法都有哪些?词向量方面有有word2vec,tf-idf,glove等
序列标注方面有hmm,crf等常用的算法,也可和神经网络结合使用,可用于解决分词,词性识别,命名实体识别,关键词识别等问题!
关键词提取方面可以用textrank,lda等
分类方面(包括意图识别和情感识别等)传统的机器学习算法和神经网络都是可以的。
其他方面,如相似度比较的余弦相似度,编辑距离以及其他优化方面的动态规划,维特比等很多。
本文标题:CRF是什么缩写搜索引擎常用的中文分词的方法有哪些?-创新互联
本文路径:https://www.cdcxhl.com/article12/cdshgc.html
成都网站建设公司_创新互联,为您提供全网营销推广、用户体验、移动网站建设、网页设计公司、网站内链、响应式网站
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联