“AI你帮我挑个木瓜?”实测豆包通话功能一场AI“视觉交互”争夺战已打响完美体育网站
近日,字节跳动旗下AI智能助手“豆包”的App上线视频通话功能,该功能用处不少。豆包团队近期就发文列举了公园花草识别、博物馆讲解等四大应用场景。一位大模型算法工程师表示,豆包在视频通话中展现的视频理解与语音交互能力,在中文语境中处于第一梯队。
近日,字节跳动旗下AI智能助手“豆包”的App上线视频通话功能,支持视频聊天问答。据官方介绍,本次升级基于视觉推理模型,支持联网搜索。
《每日经济新闻》记者实测发现,豆包的视频通话功能用处不少,包括识别水果成熟度这样的日常用途。此外,在识别物品时,豆包更展现出持续记忆和逻辑推理能力。
5月27日,一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示,豆包在视频通话中展现出的视频理解与语音交互能力,在中文语境中处于第一梯队。
“视觉是人类了解这个世界最重要的方式,对于大模型来说也是如此。”在去年12月举行的“2024火山引擎FORCE原动力大会冬”上,火山引擎总裁谭待发布了豆包视觉理解模型,称该模型具备更出色的内容识别、理解、推理、视觉描述和创作等能力。
近日,豆包App上线了实时视频通话功能,这一功能的实现正是基于豆包视觉理解模型的能力。
为了更直观地展示这一新功能的应用场景,豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍推荐查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上,豆包团队就曾在演示视频中呈现了该模型在识别地标、读懂代码、分析体检报告、为用户提供穿搭意见等日常任务中的完成能力。
和豆包打个视频电话,是否真的能解决上述这些生活问题呢?百闻不如一见,《每日经济新闻》记者近日以挑选水果、识别物品和推荐书籍这三项任务,对豆包的实时视频通话功能进行了实测。
首先,是较为基础的挑选水果任务,这也是用户在小红书等社交媒体上分享得最多的应用场景。“你来帮我挑选一个木瓜吧。”当开启视频通话后,豆包通过对果实表皮颜色、饱满程度等指标的观察,快速给出了挑选建议。有小红书用户在使用豆包挑选蔬菜后表示:“感觉突然身边多了个懂行的买菜老大爷。”
在识别物品和推荐书籍的环节,豆包展现出了良好的记忆能力和连贯的实时搜索、互动性能。例如,面对杂乱摆放着书籍、巧克力、耳机和电子时钟等物品的书桌,豆包可以轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置。
这一记忆功能在记者浏览书架时得到了更为充分的展现。记者在书店随机挑选了一个书架,就书架一侧第一本书和豆包进行沟通,同时举起手机走向了书架的另一头,再突然提出“刚刚有一本蔡磊写的书,你看到了吗?”的问题,豆包迅速记起这本曾在镜头前一闪而过的书,并对该书进行了简单介绍。
“(记忆功能的实现)大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示,豆包在该功能中展现的视频理解和语音交互能力,在中文语境中处于第一梯队。
与豆包进行关于多本书籍的聊天时,豆包能够结合记忆能力与实时搜索,对书籍内容、作者生平、同类作品推荐等话题进行自然延伸,整个交互过程流畅且生动。
2024年8月,“智谱清言”App率先推出了国内首个面向C端(消费者端)开放的视频通话功能。一时间,网上涌现出大量对视频通话功能的测试。测试方式从最基础的物体识别到生活场景的沟通交流,甚至包括辅导小学生作业。
赶在OpenAI和谷歌之前,智谱清言先一步将AI视频交互在国内落地。在国际市场上,从“听见”到“看见”同样成为AI进化的下一步。
2024年5月,OpenAI公司的“GPT-4o”发布。现场,OpenAI的研究员演示了GPT-4o的实时视觉功能它通过手机摄像头实时解了一个方程,甚至还能通过前置摄像头观察用户的面部表情,分析用户的情绪。同月,谷歌推出的“Project Astra”同样具备实时语音、视频交互的能力。
今年4月,火山引擎总裁谭待也曾表示:“模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent(智能体)才能更好地处理复杂任务。”
视频通话功能的实现,就建立在其多模态能力之上。从最后呈现的使用形态来看,视频通话功能使得用户无需再通过语言组织传达眼前的信息,这无疑是对AI使用门槛的再一次降低。
技术能力的升级为AI打通了视觉和听觉的“任督二脉”,但也要看到,AI智能助手的快速扩张已经来到了瓶颈,新的交互范式可能是新阶段的关键。
据量子位智库数据,4月份Web端(网页端)AI智能助手的总访问量首次出现下降,说明以尝鲜驱动的扩张期或已结束。
随着豆包在今年3月接入抖音及其“打电话”功能在社交媒体上受到关注,豆包也在通过抖音生态快速触达用户。
27日,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示,豆包有着庞大的用户应用生态作为支撑,扩散应该比对手要快。
他认为,豆包在商业拓展时主要还是和“剪映”集成,可以和抖音的内容审核AI结合。比如可以通过AI发现违规的短视频内容。盘和林还表示,AI视频交互的使用前景非常光明,比如生成虚拟人进行直播,又比如通过AI识别来迅速对视频文件进行归纳总结。
另一方面,AI眼镜这一类符合视频通话应用场景的新硬件逐渐升温,也给AI视频交互带来了更多可能性。
盘和林认为:“AI视频交互可以和AI眼镜有限结合,但现阶段AI眼镜的算力和显示等方面还存在技术缺陷。所以,期待未来有新的融合。”
如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。
特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。
“3厘/千tokens也有可观的毛利”,豆包开启多模态“厘时代” 目前最关键的还不是竞争?
微信之后,淘宝、东方甄选加入“送礼大战” 谁能在社交场景中赢得新增量?
边想边搜、“看懂”世界,豆包深度思考模型能否打开AI Agent进化新维度?
全国人大代表、四川省经信厅厅长翟刚:打造智能经济新形态,加快推动新兴产业成为产业新支柱
伊朗证实拉里贾尼身亡,特朗普称考虑退出北约;发改委推出新一批重大外资项目;阿里发布Agent平台“悟空”;黄天鹅回应角黄素质疑丨每经早参
拉里贾尼和儿子死于以军空袭,69岁的他是已故最高领袖哈梅内伊的亲密伙伴,三次参选伊朗总统未果,家族影响力巨大
拉里贾尼遇害细节曝光:在女儿家中遭空袭身亡!伊朗发射集束弹头导弹,报复以方暗杀行动,以色列上空疑似导弹碎片密如雨下
伊朗总统证实拉里贾尼身亡;以军威胁将“追杀”伊朗新任最高领袖;特朗普称考虑退出北约;宝宝巴士被罚;黄天鹅回应角黄素质疑丨每经早参
OpenAI发布GPT-5.4 mini与nano;“芯片荒”再添一把火,三星或将爆发史上最大罢工丨全球科技早参
“一人剧组”颠覆现实,谁还死守“剧火后”的流量?香港国际影视展揭秘未来“生存新地图”
国家发展改革委推出新一批13个标志性重大外资项目 新入选项目以制造业为主,释放什么信号?
同类文章排行
- 完美体育网站涂战略丨三棵树首家高端全屋定制直营门店面市
- 40m²小户型单身公寓现代简约风小轻奢中带着个性范!
- 完美体育网站教育家具采购宿舍上床下桌要注意哪些细节?
- 福建省推动消费品以旧换新行动方案来了
- 壕撒9亿补贴庆九周年!鲁班到家备战双十一“大考”
- 求是网评完美体育网站论员:把这一前无古人的伟大事业不断推向前
- 这是我见过最省钱最简单的装修了花了几万块搞定很值得参考啊
- 完美体育网站“修书”的乐趣(遇见)
- 济南泽田机床数控有限公司
- 江苏省靖江市举行“行走的理论课堂”活动
最新资讯文章
- 长沙开学时间定了!带“神兽”去家门口这些地方收收心完美体育网
- “AI你帮我挑个木瓜?”实测豆包通话功能一场AI“视觉交互”
- 合肥高科经济技工学校办学特色与优势介绍
- 京东未来5年投220亿元新供应15万套“小哥之家”
- 王兴不想再当“老登”了完美体育网站
- 那些熟悉的完美体育网站陌生人
- 美团CEO:别叫我兴哥减少登味多家大厂回应苹果税降低京东推出
- 新闻热点黑色金属大宗商品钢铁行业资讯信息市场调研指数期货分析
- 完美体育网站从智能床到适老家具660余项新国标激活品质消费
- 面对核辐射不再莫名恐慌
- 元代壁画缘何“飞”入寻常百姓家完美体育网站
- 阳光科密多品类2017再出发
- 《璇玑图》里的中国式现代化(阅见世界)
- 新京报]法学家高铭暄:“我将刑法学视为至爱须臾也不分离”
- 完美体育盘点2009中国城市减灾:现状分析与安全建议
- 应对关税冲击中国企业的底气从何而来完美体育网站
- 执完美体育行至2027年12月31日、2025年12月31日
- 大连民族大学:国家民委直属辽宁公办本科报考全攻略
- 宿舍完美体育上下铺木床尺寸
- 琪铄影业CEO张则天:用年代爱情照进当下生活





