欢迎关注ScalersTalk。IT人,搞技术,聊英语,玩口译,话学术,谈生活。学习成长,笔耕不辍。回复m查看文章列表,或者访问S君小站ScalersTalk.com
你现在看到的是技术系列文章,目前已经发表的文章如下,回复括号数字可阅读。
海量数据处理系列的前两篇:
[213]签名:集合的归纳描述
[207]海量数据相似性检测:文档的抽块处理(Shingling)
其他系列:
[152]清高与小我:谈技术人员的优越感(4)
[150]清高与小我:谈技术人员的优越感(3)
[149]清高与小我:谈技术人员的优越感(2)
[148]清高与小我:谈技术人员的优越感(1)
[112]扯点密码学:可证明安全随笔
[250]机器学习成长笔记(1)
[251]机器学习三要素:机器学习成长笔记(2)
[253]为什么需要机器学习:机器学习笔记(3)
公式采用的Latex编辑,可以在原文链接里看到转化后的版本。
4.有监督学习和无监督学习
a) 有监督学习
有监督学习(supervisedlearning),就是通过样例给定输入与输出,让程序学会一些通用的规则,这样对于需要预测的数据,得到输出。就是给定$$(X_1,Y_1),(X_2,Y_2),\cdots,(X_n,Y_n)$$,对新的$$X_i$$,预测其对应的$$Y_i$$。分类,回归就属于本类。
我们在口译学习中,会有一个对照自己的译文和参考译文修正的过程,这其实是一个有监督学习。例如,通过练习并校对政府工作报告的中英文版本,我们可以从官方的译本里分析并学到诸多的翻译处理手法及要点,这些总结出来以后,可以为我们所用,用于新的材料的练习中。
b)无监督学习
无监督学习(unsupervisedlearning),就是不给数据提供标签,由程序自动对数据进行聚类、概率估计、降维等工作。也就是给定数据$$X_1,X_2,\cdots, X_n$$,输出$f(X_i),f(X_i, X_j)$$
在我们练习完了大量的口译材料后,对其进行归结整理的过程,可以看成是一个无监督的学习过程。把相同的归归类,把复杂的细节抽象出经验,类似的工作其实没有一个绝对的答案,这就是一个监督学习的过程。
回复“100小时”查看口译100小时训练计划;回复“十万字”查看十万字视译计划。
S君的口译100小时、十万字视译训练交流QQ群,欢迎加入(群号为231441722)
S君个人微信号,ScalersTalker欢迎添加。
如果你觉得S君的文章对你有用,让你有所思有所想有所行动,不用感谢,打赏请S君喝杯咖啡就行:P 。支付宝账号是
scalerstalk [at] gmail [dot] com
想看更多相关文章,关注 ScalersTalk 回复任意小于标题括号中的三位数字查看。或者去我的站点 ScalersTalk.com 查看历史文章。