...
...

AI将“虚构术语”变为科学术语:一场源自扫描错误的知识污染

“植物态电子显微镜”听起来像是尖端科学术语,实际上却是源于上世纪1950年代文献扫描错误的胡编乱造词汇。最新研究揭示,这一术语最初由光学扫描软件在数字化期刊时误将“vegetative”(植物态)与“electron microscopy”(电子显微镜)拼接而成,后经AI训练数据传播、语言模型自动补全、及Farsi语翻译差错再次流入论文与数据库,最终演化为AI系统中的“数字化化石”,连GPT-4o和Claude 3.5等最新模型都难以摆脱。这一术语通过CommonCrawl等超大规模开源训练集传入各类AI模型,并因出版商未及时校对,导致其在多个学术期刊中出现。专家指出,这种“被AI永生化的伪知识”不仅危害科研数据的准确性,也凸显了AI训练数据净化的巨大难题,表明当前科学界正面临一个日益严峻的“知识误传”挑战。