上下文长度

资讯

阿里巴巴Qwen3系列模型发布，引领全球开源AI新纪元

4月29日，阿里巴巴通义千问团队正式开源了新一代Qwen3系列模型，这一事件在人工智能领域引起了广泛关注。Qwen3系列模型的发布不仅标志着阿里云在大语言模型（...

Qwen3系列模型,上下文长度,多语言支持,开源,思考模式,性能提升,混合推理,阿里巴巴 07月29日 0 0
资讯

超越Gemma2！IBM发布Granite3.1模型：支持128K上下文长度

IBM 正式发布了其新一代开源大语言模型 Granite3.1，力图在企业级 AI 领域占据领先地位。这一系列模型具备128K 的扩展上下文长度、嵌入模型、内置...

IBM,上下文长度 07月30日 0 0
资讯

谷歌发布Titans:仿生设计突破200万Token上下文长度

谷歌研究院近日发布了革新性的"Titans"系列模型架构，通过仿生设计实现了突破性的200万Token上下文长度，并计划在未来开源相关技术。这一架构的核心创新在...

谷歌,上下文长度 07月30日 0 0
资讯

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后，阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M，再次引发业界关注。此次发布的 Qwen2.5-1M 系列包...

阿里,Qwen,开源发,上下文长度 07月30日 0 0
资讯

硅基流动升级DeepSeek-R1 等推理模型API ，支持 128K 上下文长度

硅基流动（SiliconCloud）宣布对其 DeepSeek-R1等推理模型 API 进行了一次重要升级，旨在更好地满足开发者对长上下文和灵活参数配置的需求。...

硅基流动,升级,DeepSeek,API,上下文长度 07月30日 0 0
学习

Easycontext

使用场景使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度使用EasyContext在16块A100上训练L...

AI模型,语言模型,上下文长度,内存优化,深度学习,普通产品,开源, 08月01日 0 0

点击加载更多