聊聊最近在番茄·人生里集成几个国产大模型的试用体验

创建:25-09-14 17:54    修改:25-09-14 19:25


把AI大模型集成进番茄·人生时间管理工具后,系统就能够根据用户的待办任务、专注记录,为用户生成日报、周报和“GTD此刻推荐”这样的用户建议性报告。因此,对于类似的输入内容,我可以通过切换不同的后台大模型,对比它们所生成报告的差异。出于效果稳定可靠的考虑,我主要尝试了DeepSeek 0324和V3.1, Kimi K2, Qwen 3系列高低阶模型包括最近的Qwen 3 MAX等模型,下面简单记录一下个人体会。

一句话,参数越大,文字的那种原生肌肤感和语义灵魂感越强,工具生成感越淡。

在Kimi K2 0905和Qwen 3 Max没出现之前我的测评:

DeepSeek V3 和 V3.1 在逻辑性方面表现抢眼,但文字风格有些平实;Qwen3 的各个版本在阿里云的优化下调用流畅度稳定度最好,但一些低阶模型所做的分析偶尔会显得有些 “形散神也略散”,Max出现前的高阶模型印象不深(但是阿里云的模型真的是价格便宜量又足,且调用流畅稳定,真的很适合生产环境调用)。在偶尔尝试一次切换到参数量高达1T的Kimi K2时,我还是明显感觉到 Kimi K2 所生成的日报与周报更拟人一些。

如果要用比喻来形容,Kimi 的语言文字更带一种 “原生的肌肤感”(也有AI博主称之为绵密感)——在自然表达的同时,仍能很好地包裹住其下的语言逻辑。而 DeepSeek则有点像是 “皮包钢筋”,生成内容突出的逻辑骨架带来一些生硬感,什么事情都喜欢要点式分析,第一点第二点……,语言则像是在表达论点后后略作修饰,会有点体现出它是一个生成语言的机械工具感。

Kimi K2 0905版和Qwen 3 Max出现后,我再次比较了两者的报告,感觉0905的肌肤绵密感似乎消失了一些,略散(难道强化了编程就会丧失人类语言的灵魂感?有博主说DS从0324升级到3.1强化了编程后,语言文字的水平也不及前版),而Qwen 3 Max生成的报告感觉既自然也更凝聚,反正主观感觉上,它生成的报告我每次都觉得很满意,言之有物而且阅读起来有一种舒适感,我印象上比之前的Kimi 0711版更好,但它真是不便宜呀!(不过我不希望国内行业过度内卷)

或许在目前国产大模型所选定的参数范围内,Scaling Law 依然成立——模型规模大小,还是直接影响了语言和思想结合时的拟人程度和思想深度。


评论回复



更多文章和博客...