Token(令牌/词元)在计算机领域指数字标识符,常用于身份验证(如JWT)或作为大型语言模型处理文本的最小单位,可以是一个词、词的片段或标点符号,是计费和计算的基本单元,通常1个中文词≈0.6个Token。它代表授权信息,方便模型理解和生成语言,例如《大模型如何处理和生成文本》。
在人工智能和自然语言处理中 (AI/NLP)
- 基本单位: Token是模型处理文本的原子单元,将句子拆分成“词元” (Word, Subword, Punctuation)。
- 转换示例: 'overweight' 可能被拆成 'over' 和 'weight'。
- 计量: 中文一个词大约 0.6 个 token,一个英文字符约 0.3 个 token。
在计算机安全和认证中 (Security)
- 数字凭证: 代表用户、设备或会话的授权信息。
- 形式: 常为随机字符串,如JSON Web Token (JWT)。
- 功能: 用于安全访问控制,验证身份。
其他
- 区块链: 也指非同质化代币 (NFT)。
- 硬件: 指代物理安全令牌或网络中的令牌环通信机制。
总而言之,Token的核心是代表、授权和分割,在不同领域有不同具体含义,但都充当着关键的数字凭证或处理单元。


