Today's Highlights

  • DeepSeek发布了DeepSeek-V4 Pro和DeepSeek-V4 Flash,首次引入双层架构,支持1M-token上下文,采用MIT许可证。
  • V4 Pro在开放权重模型中排名第二,表现优于GLM-5.1,但仍落后于GPT-5.x和Opus 4.7。
  • 新架构引入了混合注意力系统,大幅减少KV缓存,提升长上下文处理能力。

模型

DeepSeek-V4发布

DeepSeek发布了DeepSeek-V4 Pro和DeepSeek-V4 Flash,首次引入双层架构,支持1M-token上下文。

Read More
DeepSeekV4模型

研究

混合注意力系统

新架构引入了混合注意力系统,大幅减少KV缓存,提升长上下文处理能力。

Read More
注意力系统KV缓存

Keywords: DeepSeek-V4 / 1M-token上下文 / MIT许可证 / 混合注意力系统 / KV缓存