赛事分享 Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs

小嗷犬2024-03-232025-08-13

赛事链接：https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms

简述

想象一下，您正试图通过网店为朋友的生日寻找一份完美的礼物。您必须浏览无数产品，阅读评论以衡量质量，比较价格，最后决定购买。这个过程非常耗时，有时还会因为信息量和可选项太多而不知所措。网上购物的复杂性在于，既要在产品、评论和价格的网络中穿梭，又要根据自己的理解和偏好做出最佳决定，这可能会让人不知所措。

这项挑战旨在利用大语言模型（LLM）简化这一过程。虽然目前的技术往往无法理解特定购物术语和知识的细微差别、客户行为、偏好以及产品和语言的多样性，但我们相信，大语言模型具有多任务和少量学习的能力，有潜力驾驭如此复杂的在线购物。在这一潜力的激励下，本挑战赛推出了 ShopBench，这是一个模拟现实世界中在线购物复杂性的综合基准。我们邀请参与者设计功能强大的 LLM，以改进最先进的技术如何更好地帮助我们浏览网上购物，使其成为一种更直观、更令人满意的体验，就像现实生活中知识渊博的购物助手一样。

🛍️ 介绍

网上购物非常复杂，涉及从浏览到购买的各种任务，所有这些任务都需要深入了解客户的行为和意图。这就需要能够利用跨任务共享知识的多任务学习模型。然而，目前的许多模型都是针对特定任务的，从而增加了开发成本并限制了有效性。大语言模型（LLM）可以通过一个模型处理多个任务，只需稍作提示调整，从而有可能改变这种状况。此外，大语言模型还可以通过提供互动和及时的建议来改善客户体验。然而，网上购物作为一个高度特定的领域，具有广泛的特定领域概念（如品牌、产品线）和知识（如哪个品牌生产哪些产品），这使得将普通领域现有的功能强大的 LLM 应用于网上购物具有挑战性。

受 LLM 的潜力和挑战的启发，我们提出了 ShopBench，这是一个针对在线购物的大型挑战赛，共有 57 个任务 和 ~20000 个问题，均来自真实世界的亚马逊购物数据。该挑战赛中的所有问题都是按照统一的文本到文本生成格式重新制定的，以适应对基于 LLM 的解决方案的探索。ShopBench 重点关注四种主要的关键购物技能（将作为赛道 1-4）：

购物概念理解
购物知识推理
用户行为对齐
多语言能力

除此之外，我们还设置了赛道 5：全能以鼓励更多功能和全方位的解决方案。赛道 5 要求参赛者用一个解决方案解决赛道 1-4 中的所有问题，与赛道 1-4 的特定解决方案相比，赛道 5 的解决方案预计会更有原则性和统一性。因此，我们会相应地为赛道 5 设置更高的奖项。

我们希望本次挑战赛能为参赛者提供宝贵的实践经验，帮助他们针对实际问题开发基于 LLM 的先进技术。我们还相信，这项挑战赛将为面向用户的在线服务行业提供强大且随时可用的基于 LLM 的解决方案，并为整个机器学习社区提供有关 LLM 培训和开发的有益见解和指导。

📅 时间线

挑战赛将分为两个阶段。第一阶段将对所有报名参赛的团队开放。第一阶段结束后，我们将采用前 25% 的分数线，只有在第一阶段排名前 1/4 的团队才能进入第二阶段。

相应地，ShopBench 将分成两个不相连的测试集，第 2 阶段将包含更难的样本和任务。最终的优胜者将完全由第 2 阶段的数据决定。

网站上线并开始注册：2024 年 3 月 15 日 23:55 UTC
第 1 阶段开始日期：2024 年 3 月 18 日 23:55 UTC
报名截止日期和第 1 阶段结束日期：2024 年 5 月 10 日 23:55 UTC
第 2 阶段开始日期：2024 年 5 月 15 日 23:55 UTC
结束日期：2024 年 7 月 10 日 23:55 UTC
优胜者通知：2024 年 7 月 15 日
优胜者公布：2024 年 8 月 26 日（在 KDD 2024 大会上）

🏆 奖项设置

挑战赛的奖金总额为 41,500 美元，分为以下三种类型：

Winner Prizes：我们将为每个赛道的优胜者（第一名、第二名和第三名）颁发现金奖励。
AWS Credits：紧随各赛道优胜者之后的参赛队将获得 AWS Credits。
Student Awards：我们意识到开发 LLM 需要大量计算资源和工程努力，而这两者都不是学生所能获得的。因此，我们专门为每个赛道的最佳学生团队（即所有参赛者均为学生）设立了学生奖，以激励学生开发资源高效型解决方案。

具体来说，赛道 1-4 有以下奖项：

🥇 第一名：2,000 美元
🥈 第二名：1,000 美元
🥉 第三名：500 美元
第四名至第七名：AWS Credits 500 美元
🏅 学生奖：750 美元

赛道 5（全能）设有以下奖项：

🥇 第一名：7,000 美元
🥈 第二名：3,500 美元
🥉 第三名：1,500 美元
第四名至第八名：AWS Credits 500 美元
🏅 学生奖：2,000 美元

所有奖项均可累计。例如，如果您的解决方案在赛道 5 排名第二，同时在赛道 4 排名第三，那么您可以获得总共 3,500+500=4,000 的现金奖励。但是，赛道 5 的解决方案不会自动获得赛道 1-4 的参赛资格。您必须向赛道提交方案才有资格参赛。

除现金奖励外，获奖团队还将有机会在与 ACM SIGKDD 2024 联合举办的 KDD Cup workshop 2024 上展示他们的作品。

📊 数据集

本次挑战赛使用的 ShopBench 是一个匿名的多任务数据集，取样于真实世界的亚马逊购物数据。ShopBench 的统计数据如下表所示。

# Tasks	# Questions	# Products	# Product Category	# Attributes	# Reviews	# Queries
57	20598	~13300	400	1032	~11200	~4500

ShopBench 分为 few-shot 开发集和测试集，以更好地模拟真实世界的应用——在真实世界中，你永远无法事先知道客户的问题。在这种设置下，我们鼓励参与者使用任何公开的资源（如预训练模型、文本数据集）来构建解决方案，而不是过度拟合给定的开发数据（如使用 GPT 生成伪数据样本）。

开发数据集将以 json 格式提供，包含以下字段。

input_field：该字段包含指令和模型应回答的问题。
output_field：该字段包含问题的真实答案。
task_type：该字段包含任务类型（详情见下一节 “任务”）。
metric：该字段包含用于评估问题的指标（详情请参阅 "评估指标 "部分）。

不过，测试数据集（将不向参与者公开）将采用不同的格式，只有两个字段：

input_field，与上述内容相同。
is_multiple_choice：该字段包含 True 或 False，表示问题是否为多项选择。不会向参与者提供详细的 “任务类型”。

👨‍💻👩‍💻 任务

ShopBench 用于评估四种重要的购物技能，与挑战赛的赛道 1-4 相对应。

购物概念理解：在线购物中有许多特定领域的概念，如品牌、产品系列等。此外，这些概念往往存在于查询等简短文本中，这使得模型在没有足够语境的情况下理解这些概念变得更具挑战性。这项技能强调 LLM 理解和回答与这些概念相关的问题的能力。
购物知识推理：人们在做出购物决定时会涉及复杂的内隐知识推理，如数字推理（如计算产品包装的总金额）、多步骤推理（如识别两种产品是否相互兼容）。这项技能的重点是利用特定领域的隐性知识评估模型对产品或产品属性的推理能力。
用户行为对齐：用户行为建模在网上购物中至关重要。然而，用户行为多种多样，包括浏览、购买、查询-点击等。此外，大多数行为都是隐含的，没有用文本表达。因此，如何与异构和隐式购物行为对齐是在线购物语言模型面临的独特挑战，这也是本研究方向的主要目标。
多语言能力：在线购物尤其需要多语言模型，因为它们可以在多个市场中部署，而无需重新培训。因此，我们加入了一个单独的多语种赛道，包括多语种概念理解和用户行为调整，以评估单一模型在不同购物地点的表现，而无需重新训练。

此外，我们还设置了赛道 5：全能，要求参赛者用统一的解决方案解决赛道 1-4 中的所有问题，以进一步强调解决方案的通用性和多样性。

ShopBench 一共涉及 5 种类型的任务，为了适应基于 LLM 的解决方案，所有任务都被重新表述为文本到文本的生成。

多项选择：每个问题都有多个选项，要求模型输出一个正确选项。
检索：每个问题都与一个需求和一个候选项目列表相关联，模型需要检索满足需求的所有项目。
排序：每个问题都与一个要求和一个候选项目列表相关联，模型需要根据每个项目满足要求的程度对所有项目重新排序。
命名实体识别：每个问题都与一段文本和一个实体类型相关联。模型需要从文本中提取属于实体类型的所有短语。
生成：每个问题都与一个指令和一个问题相关联，要求模型按照指令生成文本片段来回答问题。生成问题有多种类型，包括提取生成、翻译、阐述等。

为了测试解决方案的通用能力，开发集将只涵盖全部 57 个任务中的一部分，因此有的任务在整个挑战赛中都是不可见的。不过，开发集将涵盖所有 5 种任务类型，以帮助参赛者理解提示和输出格式。

🖊 评价框架

评价协议

为确保评估的全面性和公正性，挑战赛使用了一个不向参赛者公开的隐藏测试集，以防止人工标记或篡改，并推广可推广的解决方案。

评价指标

ShopBench 包括多种类型的任务，每种任务都需要特定的评估指标。所选指标如下：

多项选择：Accuracy 用于衡量多项选择的成绩。
排序：Normalized Discounted Cumulative Gain (NDCG) 用于评估排序任务。
命名实体识别（NER）：Micro-F1 分数用于评估 NER 任务。
检索：Hit@3 用于评估检索任务。在整个 ShopBench 中，正样本的数量不超过 3 个。
生成：衡量标准因任务类型而异：
- 提取任务（如关键词提取）使用 ROUGE-L。
- 翻译任务使用 BLEU 分数。
- 对于其他生成任务，我们使用 Sentence Transformer 来计算生成文本 xgen 和基本真实文本 xgt 的句子嵌入，然后计算 xgen 和 xgt 之间的余弦相似度（剪切至 [0, 1]）作为度量标准。这种方法侧重于对文本语义的评估，而不仅仅是 token 级的准确性。

由于所有任务都转换为文本生成任务，因此基于规则的解析器将解析参赛者解决方案中的答案。解析器无法处理的答案将被记为 0 分。

由于所有这些指标的范围都在 [0, 1] 之间，因此我们计算每个赛道内所有任务的平均指标（macro-averaged），以确定赛道的总分，并确定赛道优胜者。赛道 5 的总分将通过计算赛道 1-4 的平均分得出。

🚀 Baseline 解决方案

我们用 Baseline 解决方案对 ShopBench 进行了测试，以衡量挑战的可行性。我们开发了一个 pipeline，提示 LLM 以 zero-shot 的方式回答问题，为参与者提供初步指导。下表列出了一个开源 LLM（Vicuna-7B）和两个专有 LLM（Claude 2 和 Amazon Titan）的测试结果：

Models	赛道 1：购物概念理解	赛道 2：购物知识推理	赛道 3：用户行为对齐	赛道 4：多语言能力	赛道 5：全能
Vicuna-7B-v1.5	0.5273	0.4453	0.4103	0.4382	0.4553
Claude 2	0.7511	0.6382	0.6322	0.6524	0.6685
Amazon Titan	0.6105	0.4500	0.5063	0.5531	0.5300

Vicuna-7B 证明了这一挑战的可行性，它在所有赛道上都使用了 zero-shot 提示，并取得了不俗的成绩。此外，Vicuna-7B 和 Claude 2 之间的比较显示出相当大的性能差距（在所有赛道中约为 0.2），表明与基线相比还有改进的潜力。我们鼓励参与者开发有效的解决方案来缩小甚至消除差距。

注：Amazon Titan 和 Claude 2（甚至 Claude 3）均可通过 AWS Bedrock 访问。我们将在 3 月下旬举办一次关于如何使用 AWS Bedrock 的教程，还将为每个团队发放少量 Credits，供其动手操作。敬请期待！

🗃️ 提交

挑战赛将以代码竞赛的形式进行评估。参赛者必须提交他们的代码和基本资源，如微调模型权重和检索增强生成（RAG）指数，这些代码和资源将在我们的服务器上运行以生成结果，然后进行评估。

提交说明

有关提交说明，请参阅 starter kit 和 submission guideline。

硬件和系统配置

我们对每位参赛者运行其解决方案的可用硬件进行了限制。具体来说：

所有解决方案都将在配备 NVIDIA T4 GPUs 的 AWS g4dn.12xlarge 实例上运行。
第一阶段的解决方案将使用 2 x NVIDIA T4 GPU。
第二阶段的解决方案将使用 4 x NVIDIA T4 GPU。请注意，NVIDIA T4 使用的是过时的架构，因此与某些加速工具包（如 Flash Attention）不兼容，因此请注意兼容性。

此外，还将实施以下限制：

网络连接将被禁用（用于下载开源检查点的 HuggingFace 除外）。
每份参赛作品都将被分配一定的运行时间。超过时间限制的作品将被剔除，不予评审。暂定时限如下：

阶段	赛道 1	赛道 2	赛道 3	赛道 4	赛道 5
第一阶段	140 分钟	40 分钟	60 分钟	60 分钟	5 小时

作为参考，使用 zero-shot Vicuna-7B 的 Baseline 解决方案（在此查找）消耗的时间如下：

Phase	赛道 1	赛道 2	赛道 3	赛道 4
第一阶段	~50 分钟	~3 分钟	~25 分钟	~35 分钟

每个团队每周最多可提交 3 次解决方案，最多可提交 1 次赛道 5：全能的解决方案。

根据硬件和系统配置，我们建议参与者从 7B 模型开始。根据我们的实验，Vicuna-7B 和 Mistral 等 7B 模型可以在 2 个 NVIDIA T4 GPU 上顺利进行推理，而 13B 模型则会导致 OOM。

评估和排行榜

该方法使用未公开的测试数据集进行少量学习，构建实时排行榜并确定最终获胜者。

利用外部资源

通过仅提供少量开发集，我们鼓励参与者利用公共资源来构建自己的解决方案。但是，参与者应确保所使用的数据集或模型是公开的，所有参与者均可平等使用。这种限制排除了大公司的专有数据集和模型。允许参赛者对现有数据集进行重新表述（例如手动或使用 ChatGPT 添加额外数据/标签），但应在比赛结束后将其公开。

提交技术报告和规范

比赛结束后，我们将通知可能的获胜者，他们需要提交一份技术报告，描述他们的解决方案以及复制其解决方案所需的代码。组织者将审查提交的内容，检查解决方案是否符合挑战赛规则。通过审核的团队将有机会在 KDD Cup 2024 Workshop 上展示其解决方案。

🏛️ KDD Cup Workshop

KDD Cup 是由 Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining (ACM SIGKDD) 组织的年度数据挖掘和知识发现竞赛。比赛旨在促进数据挖掘和知识发现领域的研究和发展，为研究人员和从业人员提供一个平台，分享他们对各领域挑战性问题的创新解决方案。KDD Cup Workshop 2024 将于 2024 年 8 月 25 日（星期日）至 8 月 29 日（星期四）在西班牙巴塞罗那与 ACM SIGKDD 2024 同时举行。