沃卡logo

为什么公司故意向AI植入数据

2024-04-17来源:

简单地说,AI引擎有两个组件,第一个是一个广泛的内容数据库,称为大型语言模型,其中包含了这家AI公司可以找到的所有信息,这包括维基百科、《纽约时报》和其他可公开获取的内容。(关于侵犯版权的争议很严重,而且越来越多,但这是另一个话题)

为什么公司故意向AI植入数据

AI引擎的第二个组件是使用LLM数据来编写对查询的响应的算法。如果我让AI引擎完成句子,“The Dog Run Up The…”,算法会检查LLM,看看这个片段已经存在的频率以及通常完成句子的单词。然后,它向用户提供统计上最有可能的下一个单词。在这种情况下,“Hill”是典型的回答,而“casserole”不是。

一家试图利用AI的公司可以从提问开始。例如,一家服装公司可能会问:“男鞋的最新趋势是什么?”然而,只要问这个问题,AI引擎就知道这家服装公司正在考虑推出一款新产品,这是该公司希望对竞争对手隐瞒的信息。

对AI的一种更有效的使用是让该公司上传一些数据——客户的反应或销售历史——然后要求AI引擎找到模式,并将它们与其LLM中的任何其他信息进行比较。然而,许多AI引擎会将上传的公司数据添加到他们的LLM中,这样来自另一家公司的人如果提出了完全正确的问题,就可以生成揭示这些数据的回应。尽管大多数AI公司都有政策和其他保护措施来防范这种数据泄露,但在最近的几项研究中,60%-75%的公司已经宣布使用AI为非法,因为他们担心这些保护措施不够。(还有许多其他原因让公司犹豫不决,但数据隐私始终位居榜首)

然而,并不是所有公司都担心数据隐私。在咨询公司NextAccess主持的一场讨论中,一位与会者询问如何故意将企业数据注入LLM,并提高这些数据在公开可用的AI算法中的使用。NextAccess是一家咨询公司,为客户提供建议,建议他们如何改进将产品推向市场并推动收入增长的战略。

这个人经营着一家咨询公司。如果有人向AI引擎提出问题,她的公司的数据将改善响应,她希望查询者将她的公司视为智慧的来源,希望它能推动新的客户互动。

将一家公司的智慧和品牌放在信息寻求者面前并不是一个新概念。搜索引擎优化是指使一家公司的网站更容易被谷歌等搜索引擎使用,从而使该公司的网页链接出现在更多的谷歌查询中。这种做法催生了一个由咨询和技术公司组成的整个行业,这些公司可以帮助品牌设计自己的网站,以最大限度地提高对谷歌扫描工具的可见度。公司甚至可以付钱给谷歌,让他们的网页链接出现在相关查询的页面顶部。重要的是,这些“赞助商”搜索结果都有清晰的标记,这样互联网用户就能知道哪些谷歌回复是基于有机内容,哪些是基于企业支付。

谷歌训练我们所有人知道,其搜索引擎的结果不一定会给出正确的——甚至是最好的——答案。对于网络搜索者来说,点击多个链接搜索源网站已经成为一种正常的、意料之中的例行公事。

AI引擎的用户目前有不同的期望。他们假设AI引擎正在提供可能的最佳答案。即使是已知的AI缺陷,如偏见和幻觉,在新的、更强大的AI引擎中也变得不那么频繁了。用户对AI准确性的信任正在增长。

额外收入的拉动是否会说服AI公司透露一些算法秘密,以创建一个AI引擎优化(AEO)行业,这样公司就可以以一种特别容易让AI公司连接到LLM的方式重新安排数据,并增加在对用户查询的AI响应中引用该公司的数据和品牌的可能性?AI引擎会向寻求出现在AI回复中的品牌提供付费植入(理想情况下是带有赞助内容的标注)吗?

AI用户会有什么反应?他们会喜欢更相关、更具体的回应吗?或者他们会质疑这家AI公司的客观性和中立性?这些悬而未决的问题表明,AI既不同于以前的技术工具,因此还不确定它将走的道路。

到目前为止,我几乎找不到关于一家公司如何将其内容强制放入LLM,并说服AI引擎使用该公司的数据(最好是引用来源)高于其他(同样有用的)信息来源的建议。因此,我当然会问这些AI引擎,它们会受到什么影响来做到这一点。OpenAI的ChatGPT、谷歌的Gemini和Perplexity.ai都建议公司确保他们的内容结构正确、最新并得到可靠来源的支持,以增加他们的数据被包括在AI响应中的可能性。这些AI引擎都没有定义它们如何判断消息来源的可靠性。

Pplexity确实计划很快推出一个基于广告的AI引擎版本,明确区分其“客观”回应和支付促销费的公司赞助的回应。OpenAI已经有一个由私人实体使用预先选择的数据构建的聊天机器人目录,它计划最终通过市场收费提供这些数据。这将需要用户主动搜索特定的聊天机器人。谷歌使用Gemini来提高其在谷歌搜索、谷歌地图和其他属性中现有广告的性能,因此它已经间接使用AI来突出一家公司的内容而不是其他公司的内容。

然而,这些回应都没有就如何影响公开、开放、广泛使用的AI引擎版本,以突出单个公司的数据和品牌提供实质性、可操作的指导。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。