机器学习之路3
《Python的数据科学手册》
这本书和我之前看的《数据科学入门》,《数据科学导论》其实都大差不离,数据科学的基础不在于python的操作,而是算法的不同,这本书的最后一章也是在重复的讲述那些算法。但是还是一样的问题,他的算法解释都是基于自己创造的数据来着,和实际场景有着千山万水的差别,总归来说,你没办法拿来主义的应用了。
看了这么多,现在也差不多可以来谈谈自己对机器学习学习过程的一些经验推荐了。
首先是python操作,这里我建议直接看《廖雪峰的python教程》网页上就有,跟着学习,打打代码,知道python的一些操作逻辑即可。无论是这本书还是接下来的书,更多的是入门,就是告诉你python有那些用处,但是它不会全面,仔细的告诉你,因为实际情况下每个业务环境都不同,就像我们以前学习SQL语句一样,看着学的是selcet,from这些简单的,但是它给了你一些衍生,允许你在需要更高级的操作时候去再次学习,然后不断加深自己的技巧,而机器学习和python操作一样,都是一个简单入门,然后你实际业务操作时候还需要大量的去查找资料,所以每次学习完成之后你都会觉得看起来没学一样,你需要大量的习题和现实业务来不断的磨练你的技巧。
好的,基于以上原因《数据科学入门》,《数据科学导论》和《Python的数据科学手册》这三本书,你完全可以选择一本看就可以,推荐的是后面两本:《数据科学导论》和《Python的数据科学手册》都是O’Reilly精品图书系列,它出版的书确实都是具有一定科技前沿技术的。所有书的结构其实大同小异,前面都是讲述Python的安装,然后是nump包,pandas包,最后就是sklearn包,然后就是各个算法的实现,它没有体现各个算法实际过程,你就如同盲人摸象一样,慢慢的摸索,按照它的代码看着一张张美丽的图片出现,你甚至有点削足适履,将你的数据转换成它想要的格式,然后再进行学习计算。但这一过程是必备的,我们需要了解这些程序能够接受什么样的数据,然后再进行自己的推断和思考。
但是这些书也是有不足之处的:他们很多时候都是只谈及他们经常用到的一些用法,而且数据结构简单,所以到了你实际操作的时候你还是需要一个速查表,或者别人的代码操作来实现自己的想法,正如上面所说的,这就是一个入门。它告诉你工具如何使用,但是不告诉你工具原理,但这一切又是必要的,知其然然后知其所以然。
对此我的学习建议是跟着写代码,然后理解他的意思,最后再应用在自己的数据去。期间可以简单的应用在自己的工作中,比如我就拿了Pandas处理了日常excel的数据。方便自己导入到出纳系统。
接下来我考虑学习具体的解析过程:算法的数学过程。很多时候面对的是不断累积的数据,我却没有一个比较好的思路对其进行处理,很多算法我只是知道其如何使用或者是分类算法,还是近似算法。这边推荐《白板推导》视频B站里面有,讲的不算深,他侧重不在于计算过程,而是整个概念得理解过程:比如不同角度理解线性回归等,所以不需要你会实际的操作或者计算,很多时候只需要理解概念即可。比如我虽然不会矩阵求导得方法,但是我知道他求导是为了求出极值,那么这就够了,足够我们继续学习下去了。
然后根据白板得推荐,有几本很好得入门书籍可以值得阅读:
《统计学习方法》
PRML《模式识别与机器学习》
MLAPP《》
《统计学习基础(ESL)》
《deep learning》
视频:
台大-林轩田
《基石》VC,正则化,线性模型
《技法》SVM,决策树,随机森林
张志华:纯数学推导
《机器学习导论》频率派
《统计机器学习》贝叶斯
台大:李宏毅-机器学习
这些书和视频后续会找时间了解下。
同时我也会练手几个项目,防止自己编码生疏。