注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

柳州文铮

CANTOR SET&ART

 
 
 

日志

 
 

对比组学习Contrast set learning股票数学模型对冲基金方法  

2012-10-26 10:10:50|  分类: 股票数学模型对冲 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

对比度设置学习是一种关联规则的学习 ,旨在找出有意义的不同的群体之间的差异,通过逆向工程的关键预测指标,确定每一个特定的组。 例如,给定一组属性池的学生(学位类型标记),对比度组学习会确定寻求学士学位和博士学位工作人员向学生之间的对比特征。

概述

一种常见的做法是在数据挖掘 分类 ,看一个对象的属性或情况,并猜测在所观察到的项目属于哪一类。 随着新证据的审查(通常喂养的学习算法 训练集 ),这些猜测完善和改进。 在相反的方向,对比度设置学习作品。 虽然分类读取数据收集和收集信息,用于把新的数据转换成一系列不同的类别,对照组的学习需要一个项目的类别,属于逆向工程的统计证据表明,标识一个项目的成员的一类。 也就是说,对比组学生寻找规则的属性值相 ??关联的类分布与变化。 [1]他们试图从另一个对比的分类识别的关键预测。

例如,航空航天工程师在测试一个新的火箭发射记录数据。 会采取在整个发射的定期测量,注意到因素,如火箭的轨迹,操作温度,外部的压力,等。 如果火箭发射失败了一些成功的测试后,工程师可以使用对比组学习区分成功和失败的测试。 对比组学习会产生一组关联规则的应用时,将显示每一个失败的测试与成功的(温度过高的预测,风压过高等)。

对比组的学习是关联规则学习的一种形式。 关联规则的学习者通常会提供规则链接属性通常一起发生在一个训练集(例如,人们往往也住在附近校区)参加了4年的计划,并采取了全程负载。 而不是寻找规则来描述当前的情况,对比度设置学习者寻求不同的规则,有意义的分布,各组(因此,可作为预测为这些群体)。 [2]例如,对比度设置学习者可以问, “什么是密钥标识符的一个人具有学士学位或具有博士学位的人,以及如何与博士和学士学位的人不同吗?”

标准的分类算法,如C4.5 ,没有什么概念课的重要性。(也就是说,他们不知道,如果一个类是“好”或“坏”的)。 这样的学生不能的偏见或过滤他们的预测对某些需要的类。对比组学习为目标是发现有意义的组间差异,它是有用的,是能够针对对某些分类的学习规则。 几个对比组学生,如MINWAL [3]的家庭的TAR算法, [4] [5] [6]指定每类的权重,以集中学习理论对结果感兴趣的是一个特定的观众。 因此,虽然可以作为对比组学习加权课堂学习的一种形式。 [7]


编辑 ]例:超市采购

标准分类,关联规则的学习,对照组学习之间的差异可以说明一个简单的超市比喻。 在下面的小数据集,每一行是一个超市交易和每一个“1”表示该项目购买(“0”表示该项目不购买):

汉堡 土豆 鹅肝 香槟酒 采购的目的
1 1 0 1 0 野炊
1 1 0 1 0 野炊
0 0 1 0 1 周年
1 1 0 1 0 野炊
1 1 0 0 1 frat党

鉴于此数据,


关联规则的学习可能会发现,洋葱和土豆一起购买的客户也可能购买汉堡肉。
分类可以发现,客户买了洋葱,土豆和汉堡肉,采购项目的野餐。
对比组的学习可能会发现,顾客购物的野餐和那些购物的周年晚宴的主要区别是,客户获取项目的一个野餐购买洋葱,土豆,汉堡肉( 不要购买鹅肝或香槟)。
编辑 ]治疗学习

治疗学习是一种加权对比组学习,接受一个理想的组和对比对剩余的不良组(可取的水平为代表的权重类)。 [4]由此产生的“待遇”提出了一系列的规则该应用时,会导致所期望的结果。

治疗学习不同于标准的对比组学习通过下面的约束:


而不是寻求各组间的差异,治疗学习指定专注于一个特定的组,重量适用于这种期望的分组,及肿块剩余的组成一个“不想要”的范畴。
治疗的学习有明确重点上最小的理论。 在实践中,处理被限制在一个最大的四个的约束上(即,而不是说所有的火箭不同的原因,从滑板,治疗学习者将说明在一个较高的水平,统计预测火箭的四大差异意义)。

这将特别注重简单治疗学习者的一个重要目标。 治疗学习的目的的最小变化影响最大的类分布。 [7]

从概念上讲,处理学生探索所有可能的子集的所有属性值的范围。 在实践中,这样的搜索往往是不可行的,所以治疗的学习往往把注意力集中快速修剪,而忽略属性的范围,应用时,所需的类是一类分布在少数。 [6]


编辑 ]例:波士顿房屋数据

下面的示例演示住房的城市波士顿 (超过500人的例子)一个平凡的公共数据集的数据在数据集中处理学习者TAR3的输出。 在这个数据集,许多因素都收集每间房子,每间房子是按它的质量(低,中低,中高,高)。 所需的类设置为“高”,是不受欢迎的所有其他类混为一谈。

治疗学习者的输出如下所示:


Baseline class distribution: low: 29% medlow: 29% medhigh: 21% high: 21%
Baseline class distribution: low: 29% medlow: 29% medhigh: 21% high: 21%

Suggested Treatment: [PTRATIO=[12.6..16), RM=[6.7..9.78)]
Suggested Treatment: [PTRATIO=[12.6..16), RM=[6.7..9.78)]

New class distribution: low: 0% medlow: 0% medhigh: 3% high: 97%
New class distribution: low: 0% medlow: 0% medhigh: 3% high: 97%

不加处理(规则),所需的类只有21%的类分布。 但是,如果我们的房子6.7至9.78间客房和一个社区家长与教师的比例为12.6至16对数据进行筛选,然后97%,剩下的例子陷入所需的类(高品质的房子)。


编辑 ]算法

有许多算法执行对比度集学习。 下面的小节描述了两个例子。


编辑 ]STUCCO

STUCCO对比组学习[1] [2]把学习作为树的根节点的树搜索的问题是一个空的对比度设置对比度设置的任务。 孩子们添加专业的设置与其他项目通过规范排序的属性(避免两次访问相同节点)挑选。 孩子们由在一个给定的顺序,按照现有的所有条款的附加条款。 所形成的树中搜索广度优先的方式。 由于在每个级别的节点,扫描的数据集,和为每个组计算的支持。 每个节点然后检查以确定它是否是重大的和大,如果它应该被修剪,并且如果新的儿童应生成。 在所有重大对比度设置的位置,后处理器的一个子集选择显示给用户-的低位,简单的结果显示第一,其次是较高阶的结果是“令人惊讶的和显着不同的。 [2]

支持计算检验的零假设,对比度集的支持是平等的,对所有的组(即,对比组的支持是独立的组成员 )。 各组的支持度是一个频率值,可以分析其中每一行代表一个列联表的对比组,每列变量的真值表示的组成员的频率。 如果对比度设定频率和那些的无效假设的比例之间是有差别的,然后,该算法必须确定的比例,如果差异代表一个变量之间的关系,或者如果它可以归因于随机原因。 这可以通过卡方检验,比较观察到的频率计数的预期数。

从树被剪枝的节点的节点时,所有专业永远不会导致一个重大的和大的对比度设置。 修剪的决定是基于:


偏差最小大小:支承的任何两个基团半身像之间的最大差值是大于用户指定的阈值。
预计细胞频率:预计细胞频率的应急表只能降低为对照组是专门的。 当这些频率太小,卡方检验的有效性被破坏。
\志^ 2 界限:上限保持无效假设为真时,计算出的统计分布。 被剪枝的节点时,它不再能够满足这个截止。
编辑 ]TAR3

TAR3 [5] [8]加权对比组学习是基于两个基本概念-规则集的升力和支持 。

电梯的一组规则的变化,一些决定实施这一决定(即,类如何分布变化响应的实施规则),对后一组例子。 TAR3旨在诱导附加到每个类别发生时的频率乘以每类的权重的总和最大的变化的规则的最小集合。 升降机除以集的一组规则,其中所施加的基准集的得分(即,没有规则的应用)的得分计算。 请注意,扭转电梯评分功能,TAR3学习者也可以选择剩余的类,并拒绝了目标类的。

这是有问题的,依靠单独的规则集电梯。 不正确或误导性的数据的噪音,如果与失败的例子,可能会导致过度拟合的规则集。 这种过度拟合的模型可能有一个大的提升成绩,但它并不能准确地反映目前的状况,在数据集内。 为了避免过拟合,TAR3采用了支持度阈值,并拒绝所有规则错误的一面上这道门槛。 给定一个目标类中,支撑阈值是一个规则集时,已被应用到的整体的数据集在该类别的频率,这是相对于频率的比率的目标类的用户提供的值(通常为0.2)。 TAR3拒绝所有的支持低于此阈值的规则集。

既需要高扬程和高支持度,TAR3不仅返回了理想的规则集,但也有利于更小的规则集。 规则越少,更多的证据支持这些规则会存在的。

TAR3算法只建立一组属性值的规则范围内具有很高的启发价值。 该算法确定取值范围使用通过首先确定每个属性的取值范围升降机得分。 然后这些个人得分排序条件,并转换成的累积概率分布。 TAR3随机地选择从这个分布的值,这意味着低的得分范围是不可能被选择。 要建立一个候选规则集,范围选择和组合。 这些候选规则集,然后得分和排序。 如果没有改善后,被认为是一个用户定义的轮数,则算法结束,并返回得分最高的规则集。


编辑 ]
^ 斯蒂芬湾和迈克尔Pazzani(2001年)。 “检测组间差异:采对比组” 。 数据挖掘和知识发现 5(3):
一又 ? 斯蒂芬湾和 B?: 迈克尔Pazzani(1999年)。 “检测分类数据的变化:采矿对比度设置”。 KDD 1999年论文的第五ACM SIGKDD知识发现和数据挖掘国际会议。
^ CH彩,AWC富,CH程,而WW光(1998)。 “权项目”的关联规则挖掘 。 的数据库工程与应用国际研讨会(IDEAS 。
 b Y。 胡锦涛(2003年)。 治疗学习的实施与应用 。
 b K。 范甘迪-Burlet,J.舒曼,巴雷特:T.孟席斯(2007)。 “参数化分析的ANTARES的再入指导算法采用了先进的测试生成和数据分析”。 在第九届国际研讨会人工智能,机器人及自动化空间。
^ 格雷戈里同性恋,蒂姆·孟席斯,云雾缭绕戴维斯,卡伦范甘迪Burlet(2010年)。 “自动寻找控制变量的复杂系统行为” 。 自动化软件工程 。
 b T. 孟席斯和:Y.胡(2003)。 “数据挖掘”非常忙碌的人 。:IEEE计算机 。
^ J. 舒曼,K.:范甘迪-Burlet,C. Pasareanu,T.孟席斯A.巴雷特(2009)。 “软件V&V的支持由大型软件仿真系统”的参数分析。 2009年IEEE航空航天会议的论文集。

  评论这张
 
阅读(269)| 评论(0)
推荐

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017