我觉得字节在计算机这个行业,除了腾讯应该无人能出其右,属于顶级大厂,那为什么我感觉豆包那么蠢啊,根本不好用。
你让一个以3个月定绩效的公司,做1年的长期研发工作,实在有些强人所难了。
以下纯属胡掰,如有雷同纯属巧合:
比如一年才能迭代一个好魔性,字节的绩效方式是要你3个月就要有产出,这3个月时间,可能有一周在对齐OKR,一周总结OKR,两周跟别的团队扯皮拉资源,还剩2个月时间,为了避免all in,你需要1个月内出成果,这样如果失败了下个月你还能再试一次。一个月能做啥呢?看看有啥新论文,自己实践一下看看算了吧。其他风险都太高了。
其实腾讯的元宝也不争气
管理层想的: 做出优秀有竞争力的产品很难吗?
中层和执行层: 优不优秀不重要,重要的是就算是糊弄要能和上面交差,好刷kpi升职加薪
豆包已经不蠢了。
豆包现在也是R1级别的,你可以把豆包的[深度思考]开起来,然后和GPT-4o,o3-mini,gemini 2.5 Flash比一比。针对国内环境使用,豆包体验不输于ChatGPT,当然更不输于DeepSeek,豆包除了文笔有点造作、浮夸、不会聊天,模型直觉和搜索数据会偶尔出现打架,没啥大硬伤。
不过,无论豆包,还是Qwen, 现在还没有明显超DeepSeek V3 / R1 这个 Level的模型。
国内御三家差不多,都是同一条线。
离Gemini 2.5 Pro,o3这种新模型还是有差距的。
o3是国模新的挑战基线,这对“极高质量”的数据提出了 “令人窒息”的要求,你拿不到o3的高质量数据,就达不到o3的水平,人家后训练吃的是定制的营养餐,你吃的是标准盒饭,实战差距就拉开了。
如果你是以o3作为标准,去衡量其他模型,那大部分模型都是蠢的,那这个问题就没有意义了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/250471.html