ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成

时间:2023-10-10 08:36
  • 20B参数的开源模型,基于EleutherAI的GPT-NeoX-20B,在4300万条指令上进行了微调;
  • 60亿参数的审核模型可以帮助模型过滤不当内容;
  • 可扩展的搜索系统,可以帮助模型搜索维基百科等资源库,提供最新信息。
  • 根据Together提供的链接,我们可以大致看到OpenChatKit在摘要提取、问答、写作等方面的表现。以下是Together提供的一些demo:

    想要进一步了解OpenChatKit的读者也可以自己测试一下。

    测试链接:https://www.realestatebannernetwork.com/spaces/togethercomputer/OpenChatKit

    从目前的表现来看,OpenChatKit可能还不是很理想。但基于这个开源项目,社区有望构建更强大的聊天机器人应用程序。

    具有20B参数的指令调整大模型

    GPT-NeoXT-Chat-Base-20B 是一个大型语言模型,构成了 OpenChatKit 的基础。它基于 EleutherAI 的 GPT-NeoX 模型,并根据专注于对话交互的数据进行了微调。 Together 在 Huggingface 上发布了该模型的预训练权重:https://www.realestatebannernetwork.com/togethercomputer/GPT-NeoXT-Chat-Base-20B

    Together 的开发人员将模型调优重点放在多项任务上,例如多轮对话、问答、分类、提取和摘要。他们使用 4300 万条高质量指令对模型进行了微调,并与 LAION 和 Ontocord 合作创建了该模型所基于的 OIG-43M 数据集。数据集信息请参见:https://www.realestatebannernetwork.com/blog/oig-dataset/

    OIG-43M 数据集示例。

    开箱即用的 GPT-NeoXT-Chat-Base-20B 为各种自然语言任务提供了强大的基础。从定性上来说,它在 HELM 基准测试中的得分高于其基本模型 GPT-NeoX,特别是在涉及问答、提取和分类的任务上。

    在 HELM 上评估 GPT-NeoXT-Chat-Base-20B 并与 GPT-NeoX 进行比较。 †表示测试包含来自微调语料库的数据。

    模特优势

    OpenChatKit 附带了多项开箱即用的任务,包括:

  • 客户支持代理:利用知识库数据进行微调,创建聊天机器人,帮助最终用户识别问题并快速找到答案。
  • 如何微调

    微调所需的操作包括

    • 使用指定格式的交互式示例准备数据集;
    • 将数据集保存为 jsonl 文件,并根据 OpenChatKit 的 GitHub 文档微调聊天模型;
    • 不要忘记查看模型!在开始使用微调模型之前,请注意可能需要过滤审计模型以排除域外问题。如有必要,准备一些对账数据并微调审计模型。

    此过程的文档和源代码可以在 OpenChatKit 的 GitHub 链接中找到。由于 OpenChatKit 在 Apache-2.0 许可下完全开源,因此您可以为自己的应用程序或研究深度调整、修改或检查权重。

    可扩展的检索系统,可实时更新答案

    OpenChatKit 还包括一个可扩展的检索系统。通过这个检索系统,聊天机器人能够将定期更新的内容或定制内容(例如来自维基百科的知识、新闻提要或体育比分)纳入其答案中。

    检索增强系统的工作流程示例。

    审核模型以在必要时进行干预

    OpenChatKit 的最后一个组件是由 GPT-JT 微调的 60 亿个参数调节模型。在聊天应用程序中,审核模型与主聊天模型同步运行,检查用户的话语是否有任何不当内容。根据审核模型的评估,聊天机器人可以限制对审核主题的输入。当然,这个审核模型只是一个基准,用户可以根据不同的需求进行调整和定制。

    在推理过程中,开发人员进行了几次分类,将用户问题分为五类。仅当问题属于允许的类别时,聊天机器人才会做出响应。

    Copyright© 置业信息网

    皖ICP备2023014685号