沃卡logo

当语义和机器学习融合时

2022-05-20来源:51CTO

  人工智能历来在两个有点矛盾的阵营之间来回摇摆。一派是以Noam Chomsky、Marvin Minsky、Seymour Papert及其他许多人为代表的这种想法:认知智能本质上是算法;有一套基本的规则成为语言的基础,进而成为智能的基础。另一派是Donald Hebb、Frank Rosenblatt、Wesley Clarke、Henry Kelly、Arthur Bryson Jr.及其他一些人,他们大多默默无闻,逐渐形成了梯度下降、遗传算法、反向传播及神经网络的其他部分。

  这两个阵营之间的竞争非常激烈;曾经一度,在Minsky和Papert对Rosenblatt的感知器(早期神经模型之一)进行相当苛严的分析后,争论似乎很大程度上在算法方法的方向上已经偃旗息鼓了。事后看来,双方面临的一个主要障碍(也是让人工智能研究陷入十多年寒冬期的障碍)是,双方都低估了其中任何一种模式真正取得成果所需要的计算能力(计算能力增加21个数量级);再过50年,计算机和网络才会达到这两种技术中的任何一种切实可行的程度。

  结果证明,双方实际上在某些方面是对的,而在另一些方面是错的。神经网络(和机器学习)处理在1964年被视为很关键的许多问题方面变得非常有效:图像识别、自动分类、自然语言处理和系统建模等其他方面。尤其是分类功能迈出了一大步,特别是考虑到大量内容(从 Twitter帖子到电影)从中受益。

  与此同时,Minsky和Papert关于感知器的论点在当前关于机器学习的争论中得到了回响——可发现性和可验证性都证明是两个非常难以解决的问题。如果无法确定为何某个特定解决方案正确,这意味着存在未适当建模的重要的隐藏变量,并且不知道这些变量的限制——存在不连续性和奇异性的地方,将模型应用于除其自己的训练数据之外的任何内容时,就会遇到问题。

  此外,您将开发逻辑(有时是社会)结构中的人工干预这个问题换成了查找和筛选大量数据这个常常费时又费力的操作;可以说,后一种操作实际上就是前一种操作的变体,大概效率较低。

  另一方面,算法方面的情况不一定好得多。事实上,算法方法有两个方面:分析和语义。分析方法目前被认为是一门数据科学,使用统计分析(或随机法)来确定分布和概率。可以说,随机法的优势在于,针对足够庞大的数据集,它可以用来确定特定事件发生的可能性,精确度在一定的误差范围内。然而,随机法正从传统的统计分析转而使用贝叶斯网络,其中可以借助图分析来分析单个变量(特征)。

  另一方面,语义是利用连接断言的网络图,以及对断言本身进行额外断言(通过建模)的能力,这个过程名为具体化(reification)。语义非常适合更传统的建模方法,这正是由于传统的(关系)建模是语义模型的一个封闭子集,同时又提供文档对象建模语言(DOM)中固有的功能,XML或JSON就是佐证。

  重要的是,贝叶斯网络可以呈现为具有具体化的语义图,决策树也是如此。的确,SPARQL查询在每个重要的方面都与决策树同构,因为决策树中的每个节点实际上都是基于存在特定模式或约束的两个数据集的交集(提示:您想要构建合规测试系统?使用SPARQL!)。

  软件发展史充斥着纯粹主义者和实用主义者。纯粹主义者在他们自己的特定工具和语言方面标明了立场:C++与Java、命令式与声明式、SQL与NoSQL、Perl与......等等。实用主义者通常试图找到一个中间立场,精挑细选最好的,对争论的种种喧嚣置之不理。大多数纯粹主义者最终渐渐变成了实用主义者,但由于大多数程序员往往多年后成为项目管理员,因此这种学习的实际影响微乎其微。

  眼下,由于神经网络、贝叶斯和语义这三个方面的最新一代比较新,人们有一种强烈的倾向,希望将自己选择的工具视为适用于所有潜在情况的优秀工具。然而,我认为这些最终都是图或处理图的工具,我相信这种底层的共性将带来更广泛的大统一。比如说:

  机器学习管道是分类器。如果中间分类器的标签对应于某个特定的本体,那么一旦对某个特定实体进行了分类,该实体的语义表示就可以分配给相关的模式、形状、类或规则。

  机器学习系统不是索引,而是正如我的孩子们所说,它是索引相邻(非常像图的短语)。本质上,您所做的是在未知类型的实例与关联的一个或多个类之间创建映射。多个类在这里很重要,因为类只是一个标记的模式而已,而继承表明了两个这样的模式之间的共同特征。该映射有时也称为反向查询,原因在于您不是检索满足查询的所有项,而是实质上检索查询用于其中一个项的(命名)模式。

  可以在SPARQL中创建分类器(老实讲比较简单)。这是由于SPARQL本质上是寻找是否存在三重模式:不仅仅寻找属性存在,还寻找常常是二级和三级的关系。SHACL是一种RDF模式语言,可以被认为是一种基于特定的SHACL构件(及其他部分)生成SPARQL的工具,那些模式可能非常微妙。

  与之相仿,我认为图分析最终将变得与关系数据分析一样重要,或者甚至更重要,主要是由于图使人们极容易为任何类型的随机过程添加多层抽象和可发现性,从而解决当今机器学习工具所面临的许多相同问题。

  这个过程反过来也是可行的。SPARQL可以与入站流一起用来创建一个图,用于为机器语言服务构建训练数据。由于这种训练数据已经在现有本体的上下文中被标记和识别,这种过程的好处是因而生成的分类器已经拥有可解释性必需的所有部分:数据来源及注释、已确立的标识符、事件时间戳及更多。

  另一个重要的一点是,SPARQL能够改变它所处理的图。一旦您合并允许直接在 SPARQL调用本身内处理外部内容的服务调用,推理(基于现有断言中发现的模式来创建新断言)变得尤为重要。SPARQL的下一个主要阶段之一将是它能够检索、处理和生成JSON, 作为中间核心对象(软件供应商请注意)或作为RDF的来源。

  这意味着未来版本的SPARQL不再需要将表格数据存储为RDF,而是可以将其存储为 JSON,然后利用该JSON(及相关的分析功能)来创建复杂得多的推理,而占用的处理资源要少得多。针对类似的操作,不妨看一下XProc XML管道处理语言,就会意识到XSLT/XQuery 管道与RDF/SPARQL/SHACL管道之间的差异基本上是表层的。

  这最后一点非常重要,因为正如最新一代的敏捷/DevOPS/机器学习运营模式所示,管道和转换是未来。如果能够处理链式转换(尤其是那种转换中的特定管道根据上下文来加以确定,而不是事先设定),这样的管道开始显得越来越像有机的认知过程。

  原文标题:Where Semantics and Machine Learning Converge,作者:Kurt A Cagle

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。