词元是人工智能的“基因”
词元是人工智能的“基因”
国家数据局正式定名:词元是人工智能处理信息的最小单位,为人工智能产业核心计量标准。
通俗理解词元,就像人读书按“字”算,AI 处理信息按“词元”算,一个汉字、标点或代码片段都算一个。
大模型把文本、图像切分后的最小离散单元,是模型理解和生成的基础。
这种比喻挺形象的从人工智能尤其是自然语言处理领域的角度看,词元确实像“基因”一样,是构建AI理解与生成语言能力的“基础编码单元”。
在大语言模型里,文本会被拆分为一个个词元,可以是:单词、字,或是子词片段,就像生物基因是生命编码的基本片段。之后,模型通过对这些词元的“编码-运算-关联”,类似基因的转录、表达,来学习语言的语义、语法规律,进而生成符合逻辑的内容。
可以说,词元是AI“遗传”语言知识)和“表达”语言内容过程里的核心“编码基础”,和基因在生物体系里的核心作用有一定的类比性。
红包分享
钱包管理

