AI大模型基于海量多模态数据,通过深度学习、强化训练、精调微调,可以给用户带来全新的智能体验。数据是支撑AI大模型进化的核心要素,数据质量的高低对于大模型的训练效果有重要影响。其中,训练语料的多样性和代表性,将对人类社会的语言和文化多样性产生深远的影响。当前,英文数据在大模型训练语料中占据着显著的规模优势,引发关于“英语中心主义”及其社会和文化影响的担忧,这给人工智能发展提出重要问题:如何确保技术进步公平地惠及所有文化和语言?
AI大模型基于海量多模态数据,通过深度学习、强化训练、精调微调,可以给用户带来全新的智能体验。数据是支撑AI大模型进化的核心要素,数据质量的高低对于大模型的训练效果有重要影响。其中,训练语料的多样性和代表性,将对人类社会的语言和文化多样性产生深远的影响。当前,英文数据在大模型训练语料中占据着显著的规模优势,引发关于“英语中心主义”及其社会和文化影响的担忧,这给人工智能发展提出重要问题:如何确保技术进步公平地惠及所有文化和语言?