聊聊最近在番茄·人生里集成几个国产大模型的试用体验

把AI大模型集成进番茄·人生时间管理工具后，系统就能够根据用户的待办任务、专注记录，为用户生成日报、周报和“GTD此刻推荐”这样的用户建议性报告。因此，对于类似的输入内容，我可以通过切换不同的后台大模型，对比它们所生成报告的差异。出于效果稳定可靠的考虑，我主要尝试了DeepSeek 0324和V3.1， Kimi K2, Qwen 3系列高低阶模型包括最近的Qwen 3 MAX等模型，下面简单记录一下个人体会。

一句话，参数越大，文字的那种原生肌肤感和语义灵魂感越强，工具生成感越淡。

在Kimi K2 0905和Qwen 3 Max没出现之前我的测评:

DeepSeek V3 和 V3.1 在逻辑性方面表现抢眼，但文字风格有些平实；Qwen3 的各个版本在阿里云的优化下调用流畅度稳定度最好，但一些低阶模型所做的分析偶尔会显得有些 “形散神也略散”，Max出现前的高阶模型印象不深（但是阿里云的模型真的是价格便宜量又足，且调用流畅稳定，真的很适合生产环境调用）。在偶尔尝试一次切换到参数量高达1T的Kimi K2时，我还是明显感觉到 Kimi K2 所生成的日报与周报更拟人一些。

如果要用比喻来形容，Kimi 的语言文字更带一种 “原生的肌肤感”（也有AI博主称之为绵密感）——在自然表达的同时，仍能很好地包裹住其下的语言逻辑。而 DeepSeek则有点像是 “皮包钢筋”，生成内容突出的逻辑骨架带来一些生硬感，什么事情都喜欢要点式分析，第一点第二点……，语言则像是在表达论点后后略作修饰，会有点体现出它是一个生成语言的机械工具感。

Kimi K2 0905版和Qwen 3 Max出现后，我再次比较了两者的报告，感觉0905的肌肤绵密感似乎消失了一些，略散（难道强化了编程就会丧失人类语言的灵魂感？有博主说DS从0324升级到3.1强化了编程后，语言文字的水平也不及前版），而Qwen 3 Max生成的报告感觉既自然也更凝聚，反正主观感觉上，它生成的报告我每次都觉得很满意，言之有物而且阅读起来有一种舒适感，我印象上比之前的Kimi 0711版更好，但它真是不便宜呀！（不过我不希望国内行业过度内卷）

或许在目前国产大模型所选定的参数范围内，Scaling Law 依然成立——模型规模大小，还是直接影响了语言和思想结合时的拟人程度和思想深度。

2025-09-15更新：
目前我认为国产大模型的头牌排名是：
1 Kimi K2 0905 （虽然几乎每个厂新出的头牌都说自己超过Deepseek，只有它目前看是真超越了。虽然我说它的肌肤感略少，但仍然是头牌）
2 DeepSeek V3.1 (毕竟参数少一圈，但胜在经过时间检验，老当益壮的选项，比Kimi K2便宜）
提名：Qwen 3 Max（虽然参数大，但似乎智商和知识库有时还是不够）。