当前位置: 首页 > 滚动>正文

DeepSeek小爆发

发布日期：2025-08-22 11:46 来源：投资界阅读量：17265

DeepSeek官方刚刚突然宣布:我们发最新版本模型DeepSeek-V3.1啦！

消息一出，一个小时在X上的浏览热度就达到了26万！

据DeepSeek介绍，DeepSeek-V3.1是一款混合型模型，支持“思考模式”与“非思考模式”混合运行，用户可以根据场景需求，灵活切换推理深度，效率和能力两手抓。

得益于深度优化的训练策略与大规模长文档扩展，DeepSeek-V3.1在推理速度、工具调用智能、代码和数学任务等方面均有显著进步。

咱们先捋一下这次新版模型的几大亮点:

·混合思考模式:通过切换对话模板，单一模型即可兼容思考与非思考两种模式。

·更智能的工具调用:通过后训练优化，模型在调用工具和完成Agent任务方面的表现显著提升。

·更高的思考效率:DeepSeek-V3.1-Think在回答质量上可与R1-0528媲美，同时响应速度更快。

01

官方放出的测试结果显示，V3.1-Think AIME 2025得分88.4%，GPQA Diamond(高难度研究生级知识问答数据集的Diamond子集)得分80.1%，LiveCodeBench(实时编码基准)得分74.8%，均优于老模型R1-0528的表现:87.5%、81.0%、73.3%。

而且，正如下图所示，V3.1-Think的输出tokens反而大幅减少。

也就是说:V3.1-Think相较于老模型R1-0528，使用更少的tokens，但达到了相似或略高的准确率，在计算资源优化上的优势很明显。

在软件工程和Agent任务基准上的性能提升方面:

·SWE-Bench Verified，DeepSeek-V3.1得分66.0%，远高于V3-0324的45.4%和R1-0528的44.6%，表明其在处理复杂代码任务时更可靠。

·SWE-Bench Multilingual，DeepSeek-V3.1得分54.5%，大幅*V3-0324的29.3%和R1-0528的30.5%。说明其在多语言支持上有很大进步，可能通过增加多样化训练数据实现，使其更适合全球开发场景。

·Terminal-Bench环境中完成复杂任务的能力，如脚本执行、文件操作或系统交互，模拟真实命令行工作流)，DeepSeek-V3.1得分31.3%，优于V3-0324的13.3%和R1-0528的5.7%，在Agent框架下的效率提升，适合自动化运维或DevOps应用。

需要注意的是，DeepSeek V3.1的本次更新，核心在于显著增强了模型的智能体能力，尤其是在复杂推理和工具链协作场景下的实际表现。

此外，DeepSeek-V3.1搜索Agent、长上下文理解、事实问答和工具使用等领域的性能也表现强势。

DeepSeek-V3.1在大多数基准上显著优于R1-0528，在搜索Agent和长上下文任务上的平均提升约20-300%，尤其在工具使用(如xbench-DeepSearch)和事实QA(如SimpleQA)中*，这意味着它适合构建AI Agent应用，如自动化搜索或代码辅助。

相比R1-0528，DeepSeek-V3.1更注重平衡速度与质量，DeepSeek的“Agent时代” 正式拉开帷幕。

在Huggingface上，DeepSeek释放出了更详细的评估结果。

基于官方给出的与前代的测评比较，DeepSeek-V3.1在常规推理和知识问答任务上，整体表现稳定提升，非思考和思考模式下的分数均高于V3旧版，基本接近行业*大模型水平。

例如，在 HLE任务上，DeepSeek-V3.1实现了 29.8% 的通过率，优于自家 R1-0528 版(24.8%)，并接近 GPT-5、Grok 4 等国际一线大模型。

虽然各大模型在评测细节上存在一定差异，但DeepSeek的表现仍具有说服力。

新版模型在网页检索、复合搜索和工具协同场景上有跨越式进步，中文网页搜索和多模态复合推理分数显著超越旧版本。在 SWE-Bench Verified代码评测中，DeepSeek-V3.1以66.0%的成绩大幅*前代(44.6%)，也与 Claude 4.1、Kimi K2等*模型保持同一水准。

在Terminal Bench终端自动化测试中，其得分也略高于GPT-5和o3等知名竞品。

与此同时，DeepSeek-V3.1在代码生成和自动化评测方面，得分也较前代显著提升，特别是在智能体模式下，代码任务通过率和自动化执行能力大幅增强。在AIME和HMMT等高级数学推理和竞赛任务上，DeepSeek-V3.1的表现优于前代产品，思考模式下解题成功率大幅提升。

不过作为通用对话模型，V3.1 并未在所有维度超越前代产品——在部分常规对话和知识问答场景下，R1-0528 依然具有一定竞争力。

02

在具体的性能表现之外，DeepSeek发布新模型，一定会被外界密切关注的当然是价格。

这次，DeepSeek也没有让大家失望。

Input API Price，分为两种情况:

·Cache Hit:0.07美元/百万tokens。

·Cache Miss:0.56美元/百万tokens。

Output API Price为1.68美元/百万tokens。

MenloVentures的风险投资人、前谷歌搜索团队成员Deedy也发推大呼“鲸鱼回来了”。

除了价格良心之外，DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。

这意味着，用户可以像调用Claude或Anthropic生态的模型一样，将DeepSeek的集成进现有系统。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK，开发者只需配置API地址和密钥，即可在所有支持Anthropic API的环境下，使用DeepSeek-V3.1提供的推理和对话能力。

从目前的反馈来看，外界对这次发布的反馈还是很好的，尽管它并非“拳打Grok4、脚踩GPT-5”的霸王龙，但它有明确的、清晰的侧重点与优势。

更有意思的是，从两天前DeepSeek默默发了V3.1-Base开始，网友已经再次惊叹于DeepSeek发模型的节奏之舒适、态度之低调。

在其他模型发布往往先炒作规格和性能数据的时候，DeepSeek反其道而行，直接放出模型文件让开发者立即下载测试，然后再补充细节。高效、开发者友好。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

票难抢，酒店也涨价“周杰伦效应”赚麻了？

“我真的是在和人类抢票么？”曾在去年线上演唱会获得10亿点赞的周杰伦，今年线下演唱会再度收获粉丝的热情。近日，周杰伦2023嘉年华世界巡回演唱会多地门票预售陆续开启，开售即售罄让不少粉丝惊呼“根本抢不到”的同时，也让相关话题冲上微博热搜。数...
腾讯QQ音乐iOS/安卓版12.1发布：片段播放支持

下面是更新内容:「片段练唱」播放页-更多-片段播放升级，支持调节音调升降「音效」视频与MV也能结合银河音效啦，快来体验吧「黑胶播放器」“多彩琉璃”、“深色机械”等更多黑胶播放器等你来解锁体验IT之家附部分新功能演示:......
神十五航天员近日完成第2次出舱，“圆梦乘组”太空出差

，IT之家从中国载人航天工程办公室官方公众号获悉，近日，神舟十五号航天员乘组进行了第二次出舱活动。在地面工作人员和舱内航天员邓清明的密切配合下，两名出舱航天员费俊龙、张陆圆满完成全部既定工作任务，安全返回问天实验舱。神舟十五号航天员乘组第二...
索尼发布全阵列式LED电视X90L、量子点OLED电

，索尼2023年BRAVIAXR电视新品阵容今日全球发布。本次发布的新品共4个系列，包含MiniLED电视X95L、全阵列式LED电视X90L、量子点OLED电视A95L、OLED电视A80L。索尼新一代游戏电视X90L新款电视搭载XR认知...
美国银行称人工智能正迈入“iPhone时刻”，未来7

，美国银行战略分析师预测，人工智能正迈入“iPhone时刻”，预估到2030年会为全球经济带来15.7万亿美元的增长。图源WikiMedia美国银行策略师在周二给客户的一份报告中，列出了AI即将改变格局的四个原因:数据民主化、前所未有的大规...

DeepSeek小爆发

票难抢，酒店也涨价“周杰伦效应”赚麻了？

腾讯QQ音乐iOS/安卓版12.1发布：片段播放支持

神十五航天员近日完成第2次出舱，“圆梦乘组”太空出差

索尼发布全阵列式LED电视X90L、量子点OLED电

美国银行称人工智能正迈入“iPhone时刻”，未来7

热点文章

推荐图文