Embeddig技术与应用 (1) :Embedding技术发展概述及Word2Vec
编者按:嵌入(Embedding)是机器学习中一种将高维稀疏向量转换为低维稠密向量的技术。其通常用于处理自然语言、图像等高维离散数据。 嵌入能够有效地解决维度灾难问题,减少存储和计算成本,同时提高模型的表达能力。我们还可以通过得到的嵌入向量进行语义相似度计算、推荐系统、分类任务等多种应用。嵌入还可以用于处理非结构化数据,如文本、图像、音频等,帮助机器理解和处理人类的语言和其他感知信息。
基于Falcon-7B模型的QLoRA微调实操:构建面向心理健康领域的Chatbot
编者按:在之前的系列文章中,我们介绍了大模型的原理和微调落地的理论方法。本期文章,我们将以实际场景为例,详细介绍微调的实践流程和相关代码。 作者详细介绍了如何使用 QLoRA 技术针对 Falcon-7B 大语言模型进行微调,使之在消费级 GPU 上进行微调而不会出现out of memory(内存不足错误),从而创造一个能够准确、连贯的回答心理健康问题的 AI 助手。 以下是译文,Enjoy!
微调语言模型前,需要考虑这三个关键方面
编者按:随着大语言模型(LLM)的迅速发展,越来越多团队希望针对特定领域进行模型微调。但是实践运用中总是存在一些困难,直接应用并不总是能达到理想效果。 本文着重探讨了三个关键问题: 利用强大模型(如ChatGPT)的输出结果来微调较弱模型是否有效? 如何选择是采用低成本的上下文学习还是对模型进行微调? 如何处理超过模型上下文限制的长文本,让模型理解并回答关于长文本的复杂问题?
当红语言模型利器:深度解析向量数据库技术及其应用
编者按:随着大语言模型的广泛应用,如何存储和高效检索这些模型产生的大量向量表示成为一个较为关键的问题。本文深入探讨了向量数据库在提升语言模型应用性能方面的作用,并介绍了不同类型向量数据库的特点。 本文以简明扼要的方式全面概述了向量数据库的工作机制、应用场景和评估方法,对于在生产环境中应用语言模型的从业者具有重要的参考价值。
为什么企业需要私有化专属大模型
编者按:8月29日凌晨,OpenAI在官网宣布,推出企业版ChatGPT(ChatGPT Enterprise)。前不久,OpenAI又刚刚发布了针对企业的GPT-3.5 Turbo微调功能。因而引发了一场热烈的讨论——是否仍需要私有化的大模型? 我们今天为大家带来的文章,作者探讨了与仅通过 OpenAI 等公司的 API 使用 LLM 相比,私有化部署大模型的优势。有力地说明了私有化的大模型仍然是我们理想的一种选择。
如何有效进行RLHF的数据标注?
随着大语言模型在自然语言处理领域的广泛应用,如何从人类反馈进行强化学习(RLHF)已成为一个重要的技术挑战。并且RLHF需要大量高质量的人工数据标注,这是一个非常费力的过程。 作者首先介绍了数据标注的基本要素,如任务分解、质量控制等,然后具体对比了有监督微调和人类偏好反馈这两类标注的关键差异,包括数据量、任务设计等方面。
中型敏捷GenAI模型:面向企业垂直领域应用的实用型AI
编者按:人工智能领域近年来模型规模不断增大,参数规模爆炸式增长。从 GPT-3 的 1,750 亿,再到传闻中的 GPT-4 可能高达惊人的 18,000 亿参数。然而,随着模型规模的不断膨胀,也出现了训练成本高昂、环境影响大、应用部署困难等问题。因此,业内开始反思超大模型的发展方向和意义。
落地大模型应知必会(3): 如何构建多任务的LLM应用
今年以来,大语言模型(LLM)已被广泛应用于各种自然语言处理任务,也越来越多地被用于构建复杂的语言应用。但是构建多任务的 LLM 应用仍面临一定的挑战,需要解决任务组合和调控等问题。 本文内容介绍了构建多任务 LLM 应用可能涉及的方方面面,包括如何设计并使用控制流程,如何测试代理等,对于那些希望设计出好用、功能强大的 LLM 应用的读者而言,本文将是非常有价值的学习资料,读者可以通过本文对该领域有一个初步的了解。
大语言模型推理性能优化之七策
随着大语言模型在自然语言处理中的广泛应用,如何提高其在实际部署中的推理速度成为一个非常关键的问题。 本文详细介绍了当前提高大语言模型推理速度的七大策略,包括使用低精度计算、模型量化、使用适配器微调、采用模型剪枝、批量推理、多 GPU 并行和采用其他推理优化工具等方法。这些方法各有利弊,作者通过具体的实例说明它们的使用效果,让读者比较清晰地了解当前这一领域的技术发展情况。
RLHF 技术:如何能更有效?又有何局限性?
编者按:自ChatGPT推出后,基于人类反馈的强化学习(RLHF)技术便成为大模型构建和应用人员关注的热点。但该方法一些情况下效果却差强人意,有些基础模型经RLHF调优后反而表现更差。RLHF技术的适用性和具体操作细节似乎成谜。 这篇文章探讨了基于人类反馈的强化学习(RLHF)的工作机制,分析了RLHF的三个关键组成部分:基础模型、偏好模型和强化学习。并总结了RLHF的局限性:无法纠正事实错误或添加新能力。
LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程
编者按:在训练大语言模型的过程中,构建高质量的训练数据集是非常关键的一步,但关于构建大模型训练所需数据集的通用数据处理流程(Data pipelines)的相关资料极为稀少。 本文主要介绍了基于Common Crawl数据集的数据处理流程。首先,文章概述了Common Crawl的不同数据格式WARC、WAT和WET的区别及应用场景。
大语言模型评估全解:评估流程、评估方法及常见问题
编者按:随着对大语言模型(LLM)评估领域的深入研究,我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。 本文探讨了机器学习模型评估中出现的常见问题,并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面,我们将其划分为直接评估指标、基于辅助模型的评估和基于模型的评估。本文还强调了审慎观察复杂评估指标和注意细节的重要性。 以下是译文,Enjoy!
落地领域大模型应知必会(2): 轻量化微调
编者按:在实际部署大模型的过程中可能会面临资源限制的问题。通过轻量化大模型微调技术,可以将大型预训练语言模型适配到特定领域、特定任务,并减小其模型尺寸和计算量需求,提高性能和效率。 在上一篇文章中,我们分享了大语言模型的主要微调技术总览。接下来,本文将介绍轻量化大模型微调技术,重点关注Prompt Tuning和Prefix Tuning。 以下是译文,Enjoy!
落地领域大模型应知必会 (1) :主要微调方法总览
编者按:随着大规模预训练模型的发展和应用,大模型微调技术已经在很多领域都有了突破性的进展,并推动了人工智能技术的发展与应用。 本文会简要介绍上下文学习(in-context learning)的含义,并介绍对LLMs进行微调的各种可行方式。还能够帮助我们了解如何选择大语言模型的微调方法。 快快阅读此文,开启一趟大模型微调学习之旅吧! 以下是译文,Enjoy!
AI近十年盘点:纵览AI发展历程,探寻AI未来走向
编者按:当我们回顾过去十年的人工智能发展历程时,可以看到一场现在还正在进行的变革,对我们的工作方式、商业运营模式和人际交往行为都产生了深远的影响。从2013年的AlexNet到变分自编码器,再到最近的生成式大模型,人工智能技术不断出现的突破性进展推动着整个领域的蓬勃发展。
如何评估大型语言模型(LLM)?
编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。 本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指出这些框架存在的问题,最后说明如何评估大型语言模型(LLM),评估时应该考虑哪些因素。 以下是译文,Enjoy!
想要更好地理解大模型架构?从计算参数量快速入手
编者按:要理解一种新的机器学习架构(以及其他任何新技术),最有效的方法就是从头开始实现它。然而,还有一种更简单的方法——计算参数数量。 通过计算参数数量,读者可以更好地理解模型架构,并检查其解决方案中是否存在未被发现的错误。 该文章提供了Transformers模型的参数量计算公式和不太准确的简略公式版本,使读者能够快速估算基于Transformer的任何模型中参数的数量。 以下是译文,Enjoy!
大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进
大语言模型可以提供许多创意性内容,如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢? 本文探讨了GPT-2到GPT-4的创造性,并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模型的创造性:Remote Associates Test、Alternate Uses Task和Divergent Association Task,并发现越新的模型在所有创造性任务中表现越来越好。
究诸经典,探寻大模型演变之踪迹
编者按:在仅仅五年的时间里,大语言模型、transformers几乎完全改变了自然语言处理领域。 为了便于快速、扎实、深入地学习大语言模型,本文整理一个简单的经典学术资料列表,供正在入门中的机器学习研究人员和开发者参考。 以下是译文,Enjoy!
为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?
本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因,并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。 为此,本文介绍了如何改进架构以实现扩展,并讨论了实现模型最优状态的方法。同时,如何在扩展模型时不产生“偏见”,也是本文重点关注的问题。 很可能,我们很快就可以看到更大型的ViT(单独或作为多模态模型的组成部分)出现。 以下是译文,Enjoy!