[250]机器学习成长笔记(1) — ScalersTalk成长会 – 持续行动,刻意学习 – ScalersTalk Wonderland

[250]机器学习成长笔记(1)

口译训练 雕虫小技 scalerstalk 浏览 0条评论

8.jpg

欢迎关注ScalersTalk。IT人,搞技术,聊英语,玩口译,话学术,谈生活。学习成长,笔耕不辍。回复m查看文章列表,或者访问S君小站ScalersTalk.com

你现在看到的是技术系列文章,目前已经发表的文章如下,回复括号数字可阅读。

海量数据处理系列的前两篇:

[213]签名:集合的归纳描述

[207]海量数据相似性检测:文档的抽块处理(Shingling)

[222]文档局部敏感哈希(Locality-Sensitive Hashing)

其他系列:

[152]清高与小我:谈技术人员的优越感(4)

[150]清高与小我:谈技术人员的优越感(3)

[149]清高与小我:谈技术人员的优越感(2)

[148]清高与小我:谈技术人员的优越感(1)

[112]扯点密码学:可证明安全随笔

大家中秋节快乐!今天是第250天……

就选这么一天开始写一些自己在机器学习方面的笔记,我把上过的课,看过的书,查过的资料以及读过的论文整理出来。与上次写海量数据处理的技术文章不同,我在逻辑上不会过于跳跃。而且也计划写一些浅显的引导。所以如果你是文科读者,或者你是英语专业的,也可以从大体上了解一个技术领域,因为我会从口译的角度来类比解读。我觉得能这样写技术文章的,互联网上没有几个人吧……嗯,的确挺应景的。

1.机器学习的宏观概述

机器学习就是教计算机自动从数据中发现规律,并且应用于解决新的问题。

这里的主词是学习,所以其实我们可以借机思考一下人的学习。比如,你在学口译的时候,老师可能拿记者会材料给你讲一些译员处理的例子(也就是数据了),你需要用自己的大脑分析总结,然后再遇到新的材料后,能自己得体的译出来。这需要你的大脑从教材中发现规律,然后应用于新的需要翻译的材料上。不同之处在于,机器学习需要人工通过程序教计算机怎么做,而我们的大脑很多时候是个黑盒子,往往通过外部的指标来衡量。

机器学习其实是计算机科学与人工智能科学的一个子领域,研究的是如何从数据中学习,而不仅仅是遵循明确编程好的执行规则。也就是我们以前在学习中说的,给你很多例子,你能够融会贯通而不是生搬硬套;而不是给你一些结论,让你像公式那样永远生硬的套用。

先用不严谨的方式举例子,比如,我们在口译中有“建设”这个词,如果我们死扣规则,那肯定无一例外会处理成Construction,但是很多时候,在中文中,比如,经过多年的改革与建设,这里其实是Development。所以,你如果教计算机干活,基于规则的教法就是,建设=Construction,而机器学习的方式是基于数据的,比如,你看到有大量的译法,在这种语境下,是处理成Development,那机器能够合理地转换成Development

Tom M. Mitchell给出了机器学习的定义:一个计算机程序能够从经验E中学习(学习任务是T,学习的表现用P衡量),如果这个程序在任务T与表现衡量P 下,可以通过经验E得到改进。“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”。也就是说,机器学习是能够从经验中不断改进。这也是所谓的学习之要义所在。

对于给定数据$$(X_1,Y_1),(X_2,Y_2),….(X_n, Y_n)$$,机器自动学习$$X$$$$Y$$之间的关系,从而对新的$$X_i$$能够预测出$$Y_i$$。于是,以前我们对于计算机是输入规则,有了机器学习的技术,现在可以输入数据;以前计算机就是执行的,现在计算机可以做决策,从机器执行到机器决策。

机器学习专注于预测。预测也就是从已知向未知的迁移,。所以机器学习的算法需要有泛化的能力。也就是我们说的举一反三。这里需要区分一点的就是数据挖掘,它更侧重于从数据中发现事先不知道的信息。

几种机器学习的应用示例:垃圾信息的识别,搜索引擎,OCR等等。

回复“100小时”查看口译100小时训练计划;回复“十万字”查看十万字视译计划。

S君的口译100小时、十万字视译训练交流QQ群,欢迎加入(群号为231441722)

S君个人微信号,ScalersTalker欢迎添加。

如果你觉得S君的文章对你有用,让你有所思有所想有所行动,不用感谢,打赏请S君喝杯咖啡就行:P 。支付宝账号是

scalerstalk [at] gmail [dot] com

想看更多相关文章,关注 ScalersTalk 回复任意小于标题括号中的三位数字查看。或者去我的站点 ScalersTalk.com 查看历史文章。

与本文相关的文章