解码向量嵌入:人工智能和机器学习的关键

这个角度映射了两个句子之间的相似性。并且这种相似性映射开始显示出显著的效果。

由于相似的词语经常在相似的语境中使用(例如:我们经常一起使用“sun”和“bright”),我们可以将现实世界中的含义映射到向量空间中的距离

即使句子的语义不同,它也会给你近乎完美的匹配。

在我们的第一个向量嵌入示例中出现了这种情况,因为我们使用了稀疏嵌入结构,并且两个语义相似的句子显示出更大的距离。

在机器学习中,稀疏嵌入  WhatsApp数据  仅存储相关数据。如果您要对文档进行矢量化,这些矢量将仅捕获特定标记及其在数据库中的关系位置以供快速参考。

对于需要在大量文本中快速找到特定的词组合的医学搜索机器人来说,这一点非常重要。

但是,这些向量嵌入在语义理解方面表现不佳。但 ChatGPT 和我们的客户服务聊天机器人需要理解语义,因此我们转而使用密集表示。

虽然 word2vec 是传奇且必不可少的,但它并不是我们在生成式 AI 聊天机器人模型中使用的。为此,我们需要转向最近的发现。

宣传 Kommunicate 聊天机器人解决方案的横幅,上面写着“2024 年改变您的支持策略——立即免费试用我们的聊天机器人解决方案!”,并有一个“开始免费试用”按钮。插图显示了一个人正在与显示客户资料的计算机屏幕交互。

当前架构:BERT 和未来模型

BERT(Transformers 的双向编码器表示)流程的图示。左侧显示了一叠标有“大型文本数据”的纸张。箭头指向一系列三个框,标题为“获取数据并将其标记化”。另一个箭头指向右侧的齿轮,标题为“使用标记(标记数据)回答问题”。

 

WhatsApp数据

BERT 插图
Word2vec 每次只能处理  果的用户现在在向下滚动页面以查看更多结果  一个单词(或 n-gram)。它擅长在简单上下文中识别单词,但当单词在数据库中体现不同上下文时,就会出现问题。

例如,word2vec 在以下两个句子中很难理解“bank”的含义:

该商业银行已关门。
泰晤士河的河岸是开放的。
BERT 是一个可以关注单词上下文的  亚洲电子邮件列表  转换模型。它不再只是分析单个单词,而是可以根据上下文预测其含义。因此,在前面的句子中,当涉及到“商业”一词时,它可以将银行归类为金融机构。

此外,BERT 是双向的(虽然非定向性可能更贴切)。它随机抽样数据库以了解上下文并更好地概览数据(不像 word2vec,它从一个词移动到另一个词,并且有局限性)。

最近,BERT 也进化出了新的 S-BERT 模型,该模型可以更轻松地一次性分析整个句子,并且计算效率更高。

临别感想
矢量化是获取大量数据并将其以数字形式表示的过程。由于计算机可以理解数字,因此我们可以使用通过这种方法创建的矢量嵌入来帮助计算机理解文本和图像等复杂数据。

现在,向量可以是稀疏的(用零值填充),也可以是密集的(高级表示),密集向量对于计算机如何理解人类语言至关重要。

密集向量之所以成为可能,部分原因是 2013 年的开创性论文“word2vec”,该论文极大地推动了整个 NLP 领域的发展。它提供了一种将文本数据表示为向量的算法和高效方法。

多年来,Word2vec 已被较新的基于 Transformer 的模型(BERT 和 sBERT)所取代。然而,这些概念对于当前的生成式 AI 实践仍然至关重要。ChatGPT 可以理解我们的提示,因为它使用现代向量化模型来理解语义上下文。

当然,这些数据表示也为我们创建的客户支持聊天机器人提供支持。

阿达什
阿达什
作为一名经验丰富的技术专家,Adarsh 拥有超过 14 年的软件开发、人工智能和机器学习经验。他在构建可扩展且强大的技术解决方案方面的专业知识对公司的发展和成功起到了重要作用。

注册
客户体验客户服务客户支持生成式人工智能向量嵌入模型向量嵌入
相关文章
图示为一个人坐在服务器机架上使用笔记本电脑,箭头指向更大的服务器机架。下方显示文字“用于客户支持的 SLM”,象征着在客户支持操作中使用小型语言模型。
小型语言模型如何加快客户支持响应速度
图示为一个机器人和两个人站在演示屏幕旁边。屏幕上显示一个包含数据点的图表、一个饼图和货币符号,代表财务或业务分析。机器人拿着一台笔记本电脑,两个穿着绿色夹克和红色上衣的人分别站在机器人两侧,观看内容。下方的文字为“AI-First 客户服务负责人”。
如何成为人工智能优先的客户服务领导者

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注