豆包近日发布了其视觉理解大模型,这一更新标志着该应用在AI领域的进一步扩展。豆包的视觉理解模型具备强大的内容识别能力,不仅能识别图像中的物体类别和形状,还能理解物体之间的关系、空间结构和场景的整体语义。此外,该模型还具备理解和推理能力,能够基于文字与图像信息进行复杂的逻辑推演与计算。
豆包的视觉理解模型在视觉描述和创作能力上表现出细致入微的特点。例如,它能够根据动物影子的轮廓识别出动物种类,或根据一张建筑照片提供背后的历史和细节信息。在推理能力方面,豆包能够正确理解并解答微积分题和高考物理题,甚至能够根据知识点出新的练习题。
豆包的视觉理解模型还支持内容创作,如根据一幅涂鸦编写故事,或根据风景照片创作诗歌并设计成海报。豆包在图片生成中文方面也取得了进展,填补了AI应用生成中文内容的空白。
在价格方面,豆包将视觉理解的价格降至每千tokens 0.003元,相当于一块钱可以处理284张720P的图片,这一定价比行业平均价格降低了85%。豆包的这一定价策略进一步加剧了国产大模型之间的价格战。
豆包的快速模型迭代、丰富的应用生态和激进的定价策略共同推动了其用户量的高速增长。豆包大模型的日均tokens数已突破4万亿,7个月内增长超过33倍。字节跳动今年发布的AI应用接近20款,覆盖了图像、语音、音乐、视频、3D等主流模态和场景,并推出了AI耳机Ola Friend等硬件产品。字节跳动似乎正将App工厂的策略沿用到AI新浪潮中,通过饱和式打法来寻找下一个爆款AI应用。
评论 ( 0 )