第004小节:ChatGPT的基础元素 – Token, Prompt, Completion

ChatGPT的基础元素 - Token, Prompt, Completion

一、Token:语言模型的基本单位

Token 是语言模型中表示词汇或字符的基本单位。

  • 1 个 token 约等于 4 个英文字符
  • 1 个 token 约等于 3/4 个英文单词
  • 100 个 tokens 约等于 75 个英文单词

或者

  • 1-2 句话约等于 30 个 tokens
  • 1 段落约等於 100 个 tokens
  • 1,500 个中文字约等於 2048 个 tokens

在自然语言处理(NLP)领域,Token通常由一个或多个字符组成,例如单词、标点符号或特殊符号。

在ChatGPT中,Token 用于构建文本输入和输出,作为模型学习和生成的基本元素。

TOKEN范例1

TOKEN 范例(一)

为了理解Token的概念,可以将其视为文本的拼图碎片。将这些碎片按照一定的规律排列组合,就能构成有意义的文本。

在ChatGPT中,每个Token都有一个对应的向量 (embeddings) 表示,这些向量可以捕捉Token之间的语义关系。

通过训练过程,模型学会理解这些Token及其组合,从而能够生成语句和段落。

TOKEN范例二

TOKEN 范例(二)

关于tokens更详细的教程,请查阅:Tokens揭秘:理解ChatGPT中的计数原则,优化AI体验

二、Prompt:用户的请求和问题

Prompt 是用户向ChatGPT提出的请求或问题,通常是一个句子或一段文字。

Prompt 是模型生成回应的初始条件,它激发模型根据先前的学习经验来生成相应的回答或建议。

Prompt 可以非常简单,例如:“天气如何?”;也可以很复杂,比如:“请帮我写一篇关于全球暖化的文章。”

黎跃春ChatGPT提示工程笔记

不良Prompt示范

黎跃春ChatGPT提示工程笔记

优良的Prompt示范

在设计Prompt时,应将其描述得越清晰、具体,模型生成的回应就越可能满足用户的需求。

有时候,可能需要尝试几次不同的Prompt,才能找到能产生理想回应的表述。

三、Completion:模型生成的回应

Completion 是ChatGPT根据给定的prompt生成的回应,通常是一段文本。它可以视为模型对用户Prompt的回答或回应。

根据Prompt的具体要求,Completion 可能是一个简单的句子,也可能是一篇完整的文章。

第004小节:ChatGPT的基础元素 - Token, Prompt, Completion

Completion 的生成过程涉及多个步骤,包括对Prompt的理解、选择合适的Token以扩展回应内容,以及根据上下文确保语义的一致性。

在这个过程中,模型会根据概率分布从候选Token中选择最合适的一个,并将其添加到已生成的文本中。

这个过程会持续进行,直到达到特定的终止条件,如生成指定数量的Token、遇到特殊终止符号等。

第004小节:ChatGPT的基础元素 - Token, Prompt, Completion

生成的Completion质量可能受到多种因素影响,如Prompt的明确度、模型训练数据的质量和多样性、以及生成策略的选择。

对于某些情况,可能需要使用者尝试多次或进一步修改Prompt,以获得更满意的Completion。

四、Token总数 = Prompt Tokens 数量 + Completion 数量

黎跃春:写一个元壤AI的广告标语
--------------------------------
ChatGPT:"元壤AI,智能引领未来!"

Response:
{
  "id": "chatcmpl-7WPh6BB9nh4qblOjV13yvKCokXRzv",
  "object": "chat.completion",
  "created": 1687959620,
  "model": "gpt-3.5-turbo-16k-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": ""u5143u58e4AIuff0cu667au80fdu5f15u9886u672au6765uff01""
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 18,
    "completion_tokens": 16,
    "total_tokens": 34
  }
}

由上面的信息可知:

  • prompt:写一个元壤AI的广告标语
  • prompt_tokens:18
  • Completion:元壤AI,智能引领未来!
  • completion_tokens:16
  • total_tokens:18 + 16 = 34

结论:Token总数 = Prompt Tokens 数量 + Completion 数量

五、结语

了解 Token、Prompt和Completion之间的关系对于掌握ChatGPT的基本使用方法至关重要。

通过了解这些基本要素,您可以更有效地与模型互动,并获得更好的生成结果。

在未来的应用中,ChatGPT有望在众多领域发挥更大的作用,为人类创新与发展提供强大的支持。

下一小节

发布者:黎跃春,转转请注明出处:https://liyuechun.com/2023/06/28/chatgpt-token-prompt-completion/

(0)
上一篇 2023年6月28日 下午6:00
下一篇 2023年7月3日 下午12:01

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

电话:153-2182-7737

邮件:liyuechun@cldy.org

工作时间:周一至周日,9:30-18:30,节假日无休息

关注微信
黎跃春的ChatGPT提示工程笔记,用AI驱动员工生产力,引领您企业10倍效能的新革命!