《终极算法》
机器学习主要有5个学派,
我们会对每个学派分别介绍:
- 符号学派将学习看作逆向演绎,并从哲学、心理学、逻辑学中寻求洞见;
- 联结学派对大脑进行逆向分析,灵感来源于神经科学和物理学;
- 进化学派在计算机上模拟进化,并利用遗传学和进化生物学知识;
- 贝叶斯学派认为学习是一种概率推理形式,理论根基在于统计学;
- 类推学派通过对相似性判断的外推来进行学习,并受心理学和数学最优化的影响。
在构建机器学习的目标推动下,我们将回顾过去100年的思想史,并以新的观点来看待这段历史。
联结学派
证明大脑皮层统一性的另一个证据来自所谓的基因组贫乏。人类大脑中的连接数量是基因组中字母数量的100万余倍,因此从物理角度,基因组不可能弄明白大脑构造的细节。
物理规律之美多大程度渗透到更高的领域(如生物学、社会学),这一点有待观察。但对混沌的研究提供了许多诱人的例子,这些例子和拥有相似行为的不同系统相关,而普适性理论可以解释这些例子。曼德布洛特集合(Mandelbrot Set)就是很完美的例子,能解释一个很简单的重复程序如何产生无数种类的形式。如果世界上的山峰、河流、云朵以及树木都是这些重复程序的产物(分形几何学表明它们就是),也许那些程序只是单个程序的不同参数化,而该单个程序可以从那些程序推导中得出。
符号学派
对于符号学派来说,所有的信息都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者明白你不能从零开始学习:除了数据,你还需要一些原始的知识。他们已经弄明白,如何把先前存在的知识并入学习中,如何结合动态的知识来解决新问题。他们的主算法是逆向演绎,逆向演绎致力于弄明白,为了使演绎进展顺利,哪些知识被省略了,然后弄明白是什么让主算法变得越来越综合。
对于联结学派来说,学习就是大脑所做的事情,因此我们要做的就是对大脑进行逆向演绎。大脑通过调整神经元之间连接的强度来进行学习,关键问题是找到哪些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法,该算法将系统的输出与想要的结果相比较,然后连续一层一层地改变神经元之间的连接,目的是为了使输出的东西接近想要的东西。
进化学派
进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就我们,那么它就可以造就一切,我们要做的,就是在计算机上对它进行模仿。进化主义解决的关键问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使有机体交配和进化那样,基因编程也对计算机程序进行配对和提升。
贝叶斯学派
贝叶斯学派最关注的问题是不确定性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂、不完整甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效地做到这一点。
朴素贝叶斯,HMM,贝叶斯网络
类推学派
对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此推导出其他相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。问题的关键是,如何判断两个事物的相似程度。类推学派的主算法是支持向量机,主算法找出要记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。
刚开始发展缓慢,第一站是KNN,第二站是SVM,第三站是类比推理法。
跳跃式进化
遗传算法的经验会对支持“跳跃式进化”的一方有利。如果你运行10万代遗传算法,然后每隔1000代观察群体的数量,那么适应度与时间的曲线图可能看起来会像高低错落的楼梯,图形突然上升,然后是随着时间慢慢变长的平台期。要弄明白为什么也不难。一旦算法达到适应度的局部最大值(适应度中的峰值),算法会在这一点停很长时间,直到某次幸运的变异或者交叉,让处于坡上的个体等到更高的峰顶,在这一点上该个体会进行大量繁殖,然后和过往的每一代来爬上这个坡。当前的峰值越高,该过程发生前的那段时间就越长。当然,自然选择比这还要复杂:一个原因就是,环境可能会变化,要么是自然上的改变,要么是因为其他有机体自身进化了。另外,处于峰值的有机体可能会突然发现,对于再次进化,它面临巨大的压力。因此,虽然有用,当前的遗传算法还远远不是故事的结局。
《大连接》
个体按某种介质组成的系统,不同的介质组成不同的系统,这些系统最后统一为系统的不同维度。 个体作用像波一样传播(胖的传播) 竞选人拉一个人的成本大于一张票的收益:因为投票会传染 邓巴数:148 系统利他主义:合作者、不合作者、惩罚者数量动态变化。:经济人衰落、网络人崛起。
《数字化生存》
1996年出版,20年前读它,是科幻书,现在读它,是历史书
以前是原子的世界,现在是比特的世界。
人性化世界:彩屏和 GUI 是发展趋势
作者相信,图形界面不是最好的状态。最好的状态是语音交互,一个懂你心意的语音助手,一个懂你一切的老管家。
地图和汽车定位,语音导航。
《机器学习与复杂系统》
少数几个章节有点儿意思。
海马体与长期记忆有关,还与空间导航有关。
大脑深层记忆的是概念,越是抽象,越有效。
智能的三个层次
- 达尔文式。靠盲目地试错,以及遗传变异。
- 斯金纳式。先天条件反射。
- 波普尔式。形成认知、信念、预期。
《决战大数据》
内容非常有质量。作者车品觉是阿里巴巴集团前副总裁,中国信息协会大数据分会副会长,中国计算机学会大数据专家委员会副主任
- 一个严重的问题就是断层,使用数据的人并不知道数据是如何产生的。
- 必须对数据的价值和稳定性洞若观火。
- 数据应用要小而美,小不是指数据量小,而是指用用的目标很具体。
- 注意盲点,包括物理盲点和逻辑盲点。数据分析师要对数据抱有敬畏之心,不可轻易放过一个可能产生问题的点。
- 当新工作毫无头绪时,问三个问题:1.公司面对的3大问题是什么?2.未来3个月中,要解决的问题是什么?3.过去1个月内,你做对了什么,做错了什么。如果三个问题回答不出来,就没有资格在这个岗位上
- 如何还原一个场景,是一个很复杂的事情(搜索T恤确买了手机的案例)
- 面对无线数据,数据分析师首先要有多屏思维
- 内三板斧:混(与业务部门深刻接触)、通、晒(让业务部门能够充分使用数据做出决策)
- 外三板斧:存(用经验判断有价值的数据才存)、管、用
《大数据时代》
允许不精确:大数据的简单算法,比小数据的复杂算法有效 不要因果:相关关系分析 超市、ups对车监控:坏一辆车成本很高,定期换零件成本也很高 日本:坐姿大数据与汽车防盗、防疲劳 有了大数据的帮助,我们不会再将世界看成一连串我们认为或是自然或是社会的事件,我们会意识到本质上世界是由信息构成的。 验证码:给出两个单词,第一个判断注册者是人,另一个是模糊判断者。这样就能把古书变成txt,而且无成本。
- 大数据的使用方法
- 数据再利用
- 数据重组
- 数据扩展
- 数据折旧
- 数据废气(例如输入法纠错)
Inrix 汽车传感 交通数据(金矿拥有者) 用于宏观经济、零售业、制动系统改进
《大话数据挖掘》
Your track will be continued via this
1、什么是数据挖掘?
数据挖掘,学术界称为KDD(Knowledge Discovery in Database),商用领域成为Data Mining
2、有什么用?
- 购物篮分析
- 用户分群
- 客户流失分析
- 服务套餐设计
- 预测
3、用什么方法
3.1 关联规则。最经典的关联规则是Apriori算法,其基本思想是:首先从事件集中寻找频繁出现的事件子集,然后在这些频繁事件子集中发现可信度较高的规则。 聚类 3.2 聚类。按照距离(广义)度量相似性,把对象划分为若干个集合,同一集合相似性较大,不同集合相似性较小。 K-Means、K-Medoids 层次聚类 视觉聚类:格式塔原理。将相似率、连续率、闭合率、近邻率和对称率作为聚类的基本原则。 最佳聚类个数:尺度δ由小变大,聚类个数在变化,当δ在很大范围内变化,而聚类的个数确稳定不变时,认为达到了最佳聚类个数 预测方法 Data→Model→新Data
建模的一般过程: 【图】 3.3决策树方法 ID3方法C4.5方法 【图】 当样本过小或包含噪声时,容易产生Overfitting,可以通过剪枝技术克服。 3.4神经网络ANNs 容易局部最优。容易Overfitting。网络拓扑结构没有成熟理论。解不具有稀疏性和难以解释 3.5支持向量机SVM 3.6正则化方法 3.7时间序列分析 www.datamininglab.com
四、数据挖掘流程
跨行业数据挖掘团队:由专家组、数据组、算法组、软件组、部署组5个组构成 以轧钢厂条纹质量控制问题为例:
Business understanding: 深刻理解业务需求,制订数据挖掘目标和初步计划 Data understanding: 有些变量的变化特别小,便可以认为是常量,尽管这些因素对质量有影响,但生产工艺控制命中率高,便可以将这些因素删除。 Data preparation: 空值:相关分析法(方程)填充 冗余值: 离群值:聚类后剔除 标准化:Zscore Modeling:
Evaluation
《云计算》
源于搜索引擎 摩尔定律达到极限,从硬件解决到软件解决 大规模、资源共享、动态分配 软件的运行放入服务器 商业模式:广告、游戏、电商
《3D打印:从想象到现实》
中信出版社
《互联网+》
王吉斌
统计推理都是在计算能力不够的情况下使用。所以所有力量都集中在理论,数学理论上,而大数据所有力量都集中在算法优化上。
核心竞争力: 1、有助于公司进入不同的市场 2、对最终输出的价值贡献巨大 3、难以复制和模仿
其他学习笔记
人脸识别: 用途:
- 识别出人脸
- 识别不同的人
做的事:
- 抛除光线、角度、表情
- 定位于两眼距离、颧骨高度
网页排序
方案1:按照访问量
缺点:
- 是抽样数据
- 波动、季节性
- 访问量低的网页,未必不重要
- 刷访问量的
方案2:PageRank
主要思想:
- 越重要的网页,页面上的链接质量越高
- 越重要的网页,越容易被其它重要网页引用
方法:转移概率矩阵
转化为求特征值为1的特征向量问题
也可以用迭代法求解
- 问题1:等级泄漏rank leak。某个网页没有外出链接的问题(矩阵某一列全是0)
- 问题2:等级沉默rank sink。几个网页成为环,并且不向外链接。
解决:引入阻尼系数$\alpha$,假定用户可以以概率$1-\alpha$从某个网页跳到任意网页(包括自己)
图像处理
去噪声
去模糊
图像修复
用户画像
业务属性:
1、最近使用的业务
2、已开通业务
3、停用业务
位置偏好:
1、常去商圈
2、常去店面
互联网行为 1、app访问记录 2、上一个app,下一个app 3、浏览时间
兴趣爱好
人口特征 1、年龄 2、性别 3、学历 4、居住地 5、工作地
移动设备属性 1、设备型号 2、操作系统 3、通讯制式
峰会学习笔记
机器学习的应用
1、计算机视觉 人脸识别、车牌识别、扫描文字识别、图片内容识别、图片搜索
2、自然语言处理 搜索引擎智能匹配、文本内容理解、文本情绪判断、语音识别、输入法、机器翻译
3、社会网络分析 用户画像、网络关联分析、欺诈作弊发现、热点发现
4、推荐
统计推理都是在计算能力不够的情况下使用。所以所有力量都集中在理论,数学理论上,而大数据所有力量都集中在算法优化上。
核心竞争力: 1、有助于公司进入不同的市场 2、对最终输出的价值贡献巨大 3、难以复制和模仿
Deployment
您的支持将鼓励我继续创作!
