[251]机器学习三要素:机器学习成长笔记(2) — ScalersTalk成长会 – 持续行动,刻意学习 – ScalersTalk Wonderland

[251]机器学习三要素:机器学习成长笔记(2)

雕虫小技 scalerstalk 浏览 0条评论

9.jpg

欢迎关注ScalersTalk。IT人,搞技术,聊英语,玩口译,话学术,谈生活。学习成长,笔耕不辍。回复m查看文章列表,或者访问S君小站ScalersTalk.com

你现在看到的是技术系列文章,目前已经发表的文章如下,回复括号数字可阅读。

海量数据处理系列的前两篇:

[213]签名:集合的归纳描述

[207]海量数据相似性检测:文档的抽块处理(Shingling)

其他系列:

[152]清高与小我:谈技术人员的优越感(4)

[150]清高与小我:谈技术人员的优越感(3)

[149]清高与小我:谈技术人员的优越感(2)

[148]清高与小我:谈技术人员的优越感(1)

[112]扯点密码学:可证明安全随笔

[250]机器学习成长笔记(1)

公式可以在原文链接里看到转化后的版本。

2.机器学习三要素

机器学习的过程其实是一个发现数据规律的过程。也就是根据已有的数据,寻找背后可能隐藏的规律,利用这个规律,实现后续的预测的效果。

这个过程可以从一些智力测试的例子中类比。比如给一个序列,182764……问下一个是什么。对于这个序列,比较容易能看出来是一个立方序列,这个$$f(n)=n^3$$也就是我们猜测的规律,根据这个规律,可以得到$$n=5$$时的值,也即序列的下一个数值。

简单的序列我们很容易能看出来,但是复杂一些的规律,我们可能无法一眼看出。比如,634102228……

这个时候,采取的方法就是先假设一个规律,也就是我们说的模型,根据已有的数据,确定好模型的参数,使其能够解释已有的数据情况。在模型确定完成以后,可以进行预测或计算。

就上面的序列的情况,我们可以假设一个多项式的模型,即

\[f(n)=a_1n^k+a_2n^{k-1}+\cdots+a_kn+b\]

其中$$a_1,\cdots,a_k,b$$是参数,这个多项式其实是一个模型的簇了。表示的是一系列的多项式,也是我们假设这个模型的样子。

然后我们要根据上面已有的数据的实例,求出各个参数的值。比如说对于本例的参数,有$$f(1)=6,f(2)=34, f(3)=102, f(4)=228$$。求得$$f(n)$$的表达以后,可以得到

\[f(n) = 3n^3+2n^2+n\]

现在还有一个问题。我们假设一个模式,并算出合理的参数,这看似就一步,但是其实看山跑死马,也不会是一个容易的问题,会用到一些最优化的方法,包括如何迭代得到最合适的值。在这个过程中,参数是需要不断调整的,但是往哪个方向调整,怎么调整,都是需要讨论的问题。

但是跳出算法来说说其他的。回顾这个过程,我们是先针对这些数据,假设了一个模型,然后基于这个假设的模型,确定最优的参数,根据确定的参数所确定的模型,可以给出一些预测。

那我们对于这个世界的看法,也莫非不是如此。我们对世界也会有一个模型,有一个三观,然后就用各式各样的例子,去调整模型的参数,基于这些参数,我们用于指导自己的决策,面对新的问题。这就像我们的锤子,拿着锤子,看到处都是钉子。但是有的时候也会出问题,出了问题,有的时候可能是参数不对,但是也有的时候就是模型选错了。

最后回到正题,机器学习的三个要素总结在此。

a) 假设空间

也就是一个$$F(x)$$,它来完成从输入到输出的映射。可以理解为我们的模型所在的空间。对于一个问题我们要分析影响这个问题的因素有哪些,也就是特征是什么,然后需要考察它们之间的关系。

在上面的例子,假设空间也就是$$f(n)$$所代表的一个多项式的函数簇。

b) 损失函数

损失函数是机器学习里的一盏明灯,是一个衡量体系。依据它我们的算法用来决策,谁是好的,谁是不好的。也就是我们怎么样选择一个好的模型,根据我们的损失函数说了算。

在例子中没有具体提到这方面,后续会讨论。

c) 求解算法

刚才说了要找到一组最优的参数,那如何找?这就是求解算法的问题了。站着求也是求,跪着求也是求。怎么样最优雅的求。这是求解算法所需要解决的问题。

所以最后一句话串起三个要素,在假设的空间中,根据预定的损失函数,在求解算法的引导下,找到最优的解的过程。

回复“100小时”查看口译100小时训练计划;回复“十万字”查看十万字视译计划。

S君的口译100小时、十万字视译训练交流QQ群,欢迎加入(群号为231441722)

S君个人微信号,ScalersTalker欢迎添加。

如果你觉得S君的文章对你有用,让你有所思有所想有所行动,不用感谢,打赏请S君喝杯咖啡就行:P 。支付宝账号是

scalerstalk [at] gmail [dot] com

想看更多相关文章,关注 ScalersTalk 回复任意小于标题括号中的三位数字查看。或者去我的站点 ScalersTalk.com 查看历史文章。

与本文相关的文章