沃卡logo

监督学习与无监督学习:专家定义差距

2023-11-24来源:

了解监督学习、无监督学习和半监督学习的特征,以及它们在机器学习项目中的应用方式。

在人工智能技术的讨论中,监督学习往往会得到最多的宣传,因为它通常是用于创建人工智能模型的最后一步,用于图像识别、更好的预测、产品推荐和潜在客户评分等。

相比之下,无监督学习往往在人工智能开发生命周期的早期在幕后工作:它通常被用来为监督学习的魔力展开奠定基础,就像让经理大放异彩的繁重工作一样。正如后面所解释的,这两种机器学习模式都可以有效地应用于业务问题。

在技术层面上,监督学习与无监督学习之间的区别在于用于创建算法的原始数据是预先标记(监督学习)还是未预先标记(无监督学习)。

让我们开始吧。

什么是监督学习?

在监督学习中,数据科学家为算法提供标记的训练数据,并定义他们希望算法评估相关性的变量。

算法的输入数据和输出变量都在训练数据中指定。例如,如果您尝试使用监督学习来训练算法以了解图片中是否有猫,则可以为训练数据中使用的每张图片创建一个标签,指示图像是否包含猫。

正如我们在监督学习的定义中所解释的那样:“[A]计算机算法是在为特定输出标记的输入数据上训练的。该模型经过训练,直到它能够检测到输入数据和输出标签之间的基本模式和关系,使其能够在呈现前所未见的数据时产生准确的标记结果。监督算法的常见类型包括分类、决策树、回归和预测建模,您可以在Arcitura Education的机器学习教程中了解这些内容。

监督式机器学习技术用于各种业务应用程序,包括以下内容:

个性化营销。

保险/信贷承销决策。

欺诈检测。

垃圾邮件过滤。

什么是无监督学习?

在无监督学习中,一种适合这种方法的算法(K-means聚类就是一个例子)是在未标记的数据上训练的。它扫描数据集,寻找任何有意义的联系。换句话说,无监督学习决定了数据中的模式和相似性,而不是将其与某些外部测量相关联。

当您不知道自己在寻找什么时,这种方法很有用,而当您知道时,这种方法就不那么有用了。如果你向无监督算法展示了数千或数百万张图片,它可能会将图片的子集归类为人类识别为猫科动物的图像。相比之下,在猫与犬科动物的标记数据上训练的监督算法能够高度自信地识别猫的图像。但这种方法有一个权衡:如果监督学习项目需要数百万张标记图像来开发模型,那么机器生成的预测需要大量的人力。

有一个中间地带:半监督学习。

什么是半监督学习?

半监督学习是一种结合了这两种方法的捷径。半监督学习描述了一种特定的工作流程,其中使用无监督学习算法自动生成标签,这些标签可以输入到监督学习算法中。在这种方法中,人类手动标记一些图像,无监督学习猜测其他图像的标签,然后将所有这些标签和图像输入到监督学习算法以创建AI模型。

半监督学习可以降低标记机器学习中使用的大型数据集的成本。“如果你能让人类标记数百万个样本中的0.01%,那么计算机就可以利用这些标签来显着提高其预测准确性,”企业数据目录平台Alation的联合创始人兼首席创新官Aaron Kalb说。

什么是强化学习?

另一种机器学习方法是强化学习。强化学习通常用于教机器完成一系列步骤,不同于监督学习和无监督学习。数据科学家对算法进行编程来执行任务,在确定如何完成任务时给予积极或消极的线索或强化。程序员为奖励设定规则,但让算法自己决定需要采取哪些步骤来最大化奖励,从而完成任务。

什么时候应该使用监督学习与无监督学习?

LinkedIn机器学习经理Shivani Rao表示,采用监督或无监督机器学习方法的最佳实践通常取决于环境,你可以对数据和应用程序做出的假设。

Rao说,使用监督学习与无监督机器学习算法的选择也会随着时间的推移而改变。在模型构建过程的早期阶段,数据通常是未标记的,而标记的数据可以在建模的后期阶段出现。

例如,对于预测LinkedIn成员是否会观看课程视频的问题,第一个模型基于无监督技术。提供这些建议后,记录某人是否单击建议的指标将提供新数据以生成标签。

LinkedIn还使用这种技术来标记学生可能想要获得的技能的在线课程。人工标记者,例如作者、出版商或学生,可以提供课程教授的精确和准确的技能列表,但他们不可能提供此类技能的详尽列表。因此,可以认为这些数据标记不完整。这些类型的问题可以使用半监督技术来帮助构建一组更详尽的标记。

数据科学和高级分析专家、咨询公司科尔尼(Kearney)的合伙人巴拉特·托塔(Bharath Thota)表示,他的团队选择使用监督学习或无监督学习时,也往往会考虑实际因素。

“当标记数据可用时,我们选择监督学习作为应用程序,目标是预测或分类未来的观察结果,”Thota说。“当标记数据不可用时,我们使用无监督学习,目标是通过从数据中识别模式或片段来制定策略。”

Kalb说,Alation数据科学家在内部将无监督学习用于各种应用程序。例如,他们开发了一种人机协作流程,用于将晦涩难懂的数据对象名称翻译成人类语言,例如,将“na_gr_rvnu_ps”翻译成“北美专业服务总收入”。在这种情况下,机器猜测,人类确认,机器学习。

“你可以把它想象成一个迭代循环中的半监督学习,创造一个提高准确性的良性循环,”Kalb说。

5种无监督学习技巧

在高层次上,监督学习技术倾向于关注线性回归(将模型拟合到一组数据点以进行预测)或分类问题(图像是否有猫?

无监督学习技术通常使用各种方式对原始数据集进行切片和切块,以补充监督学习的工作,包括:

数据聚类。具有相似特征的数据点组合在一起,以帮助更有效地理解和探索数据。例如,公司可能会使用数据聚类方法根据客户的人口统计、兴趣、购买行为和其他因素将客户细分为几组。

降维。数据集中的每个变量都被视为一个单独的维度。但是,许多模型通过分析变量之间的特定关系来更好地工作。降维的一个简单例子是将利润用作单一维度,它表示收入减去支出——两个独立的维度。但是,可以使用主成分分析、自动编码器、将文本转换为向量的算法或 T 分布随机邻域嵌入等算法生成更复杂的新变量类型。

降维可以帮助减少过度拟合的问题,在这种问题中,模型适用于小数据集,但不能很好地泛化到新数据。该技术还使公司能够以 2D 或 3D 形式可视化人类可以轻松理解的高维数据。

异常或异常值检测。无监督学习可以帮助识别常规数据分布之外的数据点。识别和删除异常作为数据准备步骤可能会提高机器学习模型的性能。

迁移学习。这些算法利用在相关但不同的任务上训练的模型。例如,迁移学习技术可以很容易地微调在维基百科文章上训练的分类器,以使用正确的主题标记任意类型的新文本。LinkedIn的Rao表示,这是解决没有标签的数据问题的最有效,最快捷的方法之一。

基于图形的算法。Rao说,这些技术试图构建一个图表来捕捉数据点之间的关系。例如,如果每个数据点表示具有技能的 LinkedIn 成员,则可以使用图形来表示成员,其中边缘表示成员之间的技能重叠。图形算法还可以帮助将标签从已知数据点转移到未知但密切相关的数据点。无监督学习还可用于在不同类型的实体(源和目标)之间构建图形。边缘越强,源节点与目标节点的亲和力就越高。例如,LinkedIn 使用它们将成员与基于技能的课程相匹配。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。