词元是人工智能的“基因”
2026-06-04 22:05:37
  • 0
  • 0
  • 0
  • 0

词元是人工智能的“基因”

    国家数据局正式定名:词元是人工智能处理信息的最小单位,为人工智能产业核心计量标准。‌‌‌

    ‌通俗理解‌词元,就像人读书按“字”算,AI 处理信息按“词元”算,一个汉字、标点或代码片段都算一个。

    大模型把文本、图像切分后的最小离散单元,是模型理解和生成的基础。‌‌

    这种比喻挺形象的从人工智能尤其是自然语言处理领域的角度看,词元确实像“基因”一样,是构建AI理解与生成语言能力的“基础编码单元”。

    在大语言模型里,文本会被拆分为一个个词元,可以是:单词、字,或是子词片段,就像生物基因是生命编码的基本片段。之后,模型通过对这些词元的“编码-运算-关联”,类似基因的转录、表达,来学习语言的语义、语法规律,进而生成符合逻辑的内容。

    可以说,词元是AI“遗传”语言知识)和“表达”语言内容过程里的核心“编码基础”,和基因在生物体系里的核心作用有一定的类比性。


 
最新文章
相关阅读