Tomato AI Daily · 2026-04-24 Fri

Today's Highlights

DeepSeek发布了DeepSeek-V4 Pro和DeepSeek-V4 Flash，首次引入双层架构，支持1M-token上下文，采用MIT许可证。
V4 Pro在开放权重模型中排名第二，表现优于GLM-5.1，但仍落后于GPT-5.x和Opus 4.7。
新架构引入了混合注意力系统，大幅减少KV缓存，提升长上下文处理能力。

模型

DeepSeek-V4发布

DeepSeek发布了DeepSeek-V4 Pro和DeepSeek-V4 Flash，首次引入双层架构，支持1M-token上下文。

Read More

DeepSeekV4模型

研究

混合注意力系统

新架构引入了混合注意力系统，大幅减少KV缓存，提升长上下文处理能力。

Read More

注意力系统KV缓存