智能体回答支持公众号引文
【效果】 关联了公众号知识库的智能体,回答内容支持显示所引用的公众号文章,用户可点击跳转至公众号阅读,回答「更准确、更闭环」。
【操作方式】 在智能体编辑页面,将「显示智能体回复参考消息」+「允许用户通过引文查看/跳转原文链接」选项打开并重新发布,即可生效。
P.S. 该功能当前仅适用于纯知识库智能体(未使用插件+工作流),后续将支持工作流类智能体。
快手的AI视频公司可灵近日推出了1.6版本,这一更新在图生视频方面实现了显著的进步。新版本在物理规律的真实感、人物运动表演以及语义理解方面都有了巨大的提升,使得可灵在AI视频生成领域再次超越了自己。
物理规律真实感大幅提升:可灵1.6现在能够更真实地模拟物理规律,如切食物、倒茶甚至跳舞等动作。在切西红柿的测试中,1.6版本展现出了惊人的稳定性和物理反馈,与1.5版本相比有了质的飞跃。
人物运动表演加强:1.6版本在人物表情和肢体动作的表现上也有了显著进步。无论是面部细节的变化还是肢体动作的流畅性,新版本都能更准确地捕捉和再现,使得生成的视频更加逼真。
语义理解大幅提升:可灵1.6在理解连续动作的提示词方面表现出色,能够准确识别并执行复杂的动作序列,如人物互动和环境响应。
Visual Studio Code(VS Code)用户迎来重大更新,GitHub Copilot现在可以免费使用。这意味着开发者无需支付费用即可体验AI代码助手的功能。免费版GitHub Copilot提供每月2000次代码补全和50次聊天请求,以及访问GPT-40和Claude 3.5 Sonnet模型。
此次更新将GitHub Copilot全面整合到VS Code编辑器中,并新增了以下功能:
Copilot Edits:允许用户通过聊天侧边栏发起多文件编辑,提供跨多个文件的修改建议,甚至创建新文件。
多模型选择:用户可以根据具体任务自由选择使用的AI模型。
自定义指令:用户可以告诉GitHub Copilot希望代码以何种方式生成,模型会按照用户的偏好和细节生成代码。
项目全局感知:使用@workspace
提及整个代码库,智能感知意图并自动纳入项目上下文。
智能命名建议:按下F2,GitHub Copilot根据代码实现和使用场景提供命名建议。
语音输入:点击麦克风图标,开启语音聊天功能,由免费的VS Code Speech扩展提供。
终端专家:在VS Code终端中与GitHub Copilot进行终端聊天,执行任何终端命令。
自动生成commit消息:根据更改和之前的提交信息,为用户生成恰当的commit消息。
扩展无极限:任何VS Code扩展都可以直接与GitHub Copilot API集成,提供定制化的AI体验。
Vision Copilot预览:未来将有更多功能加入,例如基于截图或标记生成界面。
GitHub Copilot的免费版发布,为VS Code用户带来了AI驱动的全新编码体验,使得AI代码助手更加普及和易于获取。
豆包近日发布了其视觉理解大模型,这一更新标志着该应用在AI领域的进一步扩展。豆包的视觉理解模型具备强大的内容识别能力,不仅能识别图像中的物体类别和形状,还能理解物体之间的关系、空间结构和场景的整体语义。此外,该模型还具备理解和推理能力,能够基于文字与图像信息进行复杂的逻辑推演与计算。
豆包的视觉理解模型在视觉描述和创作能力上表现出细致入微的特点。例如,它能够根据动物影子的轮廓识别出动物种类,或根据一张建筑照片提供背后的历史和细节信息。在推理能力方面,豆包能够正确理解并解答微积分题和高考物理题,甚至能够根据知识点出新的练习题。
豆包的视觉理解模型还支持内容创作,如根据一幅涂鸦编写故事,或根据风景照片创作诗歌并设计成海报。豆包在图片生成中文方面也取得了进展,填补了AI应用生成中文内容的空白。
在价格方面,豆包将视觉理解的价格降至每千tokens 0.003元,相当于一块钱可以处理284张720P的图片,这一定价比行业平均价格降低了85%。豆包的这一定价策略进一步加剧了国产大模型之间的价格战。
豆包的快速模型迭代、丰富的应用生态和激进的定价策略共同推动了其用户量的高速增长。豆包大模型的日均tokens数已突破4万亿,7个月内增长超过33倍。字节跳动今年发布的AI应用接近20款,覆盖了图像、语音、音乐、视频、3D等主流模态和场景,并推出了AI耳机Ola Friend等硬件产品。字节跳动似乎正将App工厂的策略沿用到AI新浪潮中,通过饱和式打法来寻找下一个爆款AI应用。
OpenAI在12天发布会第10天推出了一项创新服务——ChatGPT热线,允许用户通过电话直接与AI进行聊天,无需联网。用户可以直接拨打号码(+1)800 CHATGPT(1-800-242-8478)或者在WhatsApp上向相同号码发送消息,即可与ChatGPT进行实时交流。
这项服务的推出意味着OpenAI正在积极拓展其AI服务的覆盖范围,特别是针对那些不常使用手机应用的人群。通过电话这一传统通信方式,OpenAI希望能够吸引更多的用户使用ChatGPT,使其成为人们搜索和信息获取的代名词。
为了降低成本并保证服务速度,OpenAI此次使用的是4o-mini模型,这是一个较小的模型版本。尽管如此,这一服务仍然能够提供快速的响应和对话体验。目前,ChatGPT热线服务仅在美国可用,美国用户每月可以获得15分钟的免费语音通话时间。
OpenAI的这一举措显示了其在AI领域的雄心壮志,即让AI技术成为日常生活的一部分,并在AI大战中抢占先机。随着这一服务的推出,OpenAI正在大力抢占每一个可能的入口,让ChatGPT成为人们提起人工智能时的第一反应。
Midjourney最近推出了一个名为Moodboards的新功能,它允许用户通过上传自己的图像集来个性化AI模型。这一功能类似于IpAdapter和LoRA,使用户能够创建一个“情绪板”,作为生成新艺术作品的灵感来源。Midjourney的AI模型通过分析上传的图片,适应多样化和复杂的视觉元素,创造出独特的风格档案,并进行视觉元素的混合。
Moodboards功能的主要特点包括:
个性化模型档案:用户可以创建和管理多个个性化档案,为不同的项目或风格设置不同的档案。
快速的个性化设置:设定个性化档案的过程比之前快了最多5倍。
情绪板(Moodboards):用户可以上传图像,创建一个“情绪板”,这些图像将作为模型的灵感来源。
命名和管理个性化档案:用户可以为不同的个性化档案命名,并选择设为默认模型档案。
追踪个性化档案生成记录:用户可以查看所有与特定个性化档案相关的生成图像,方便回顾和调整创作方向。
扣子平台通过模型服务和官方插件方式接入以下豆包全新模型,关于模型的介绍可参考模型服务。
豆包视觉理解模型pro:即日起,升级专业版默认开通豆包视觉理解模型pro(Doubao-vision-pro-32k)。
豆包文生音乐模型:发布扣子官方插件豆包音乐大模型,插件工具使用豆包音乐模型,可以根据用户输入生成音乐。
豆包图像生成大模型:发布扣子官方插件豆包图像生成大模型,插件工具使用豆包图像生成模型。它是一款强大的 AI 图像助手,支持图像生成和图像编辑。
月之暗面Kimi最近发布了其视觉思考模型k1的升级版,这一新模型在推理能力上取得了显著提升,并且在速度和准确性上都有了大幅增强。k1模型基于强化学习技术,支持端到端图像理解和思维链技术,将能力扩展到了数学之外的更多基础科学领域,包括物理、化学等。
在基础科学学科的基准能力测试中,k1模型的表现超过了全球标杆模型,如OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet。k1的图像理解能力也解决了之前k0-math模型无法解决的许多几何图形问题,在基础教育各阶段的几何和图形题专项基准能力测试中,k1的成绩打平或超过了OpenAI的o1模型。
k1不仅能够识别各种真实的拍题场景,处理复杂状况,如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目,还能以端到端的方式将视觉能力和推理能力结合起来,直接理解用户输入的图片信息并进行深度推理。
此外,k1还展现出了一些涌现能力,包括古代文献分析、梗图理解、基于照片推断地点等,这些能力大大提升了k1在日常生活中的实用性。月之暗面Kimi的这一新模型,通过强化学习技术,为大模型技术范式带来了新的发展方向,预示着AI模型在未来可能实现更加强大的交互体验。
xAI推出了其旗舰产品Grok 2聊天机器人模型的升级版,宣称新版本在速度上快了三倍,并且在准确性、指令遵循能力以及多语言能力方面都有显著提升。这一升级显示了xAI在AI聊天机器人领域的技术进步和持续创新。
升级版的Grok模型已经开始向社交网络X的所有用户推出。免费用户每两小时可以向Grok提出10个问题,而X的Premium和Premium+计划订阅者则享有更高的使用限制。xAI还宣布在X中增加“Grok按钮”,旨在帮助用户发现相关内容、了解实时事件并深入了解热门讨论。
此外,xAI正在对其企业API进行一些更改,引入一对新的Grok模型,这些模型效率更高,多语言性能更强。由于效率的提高,定价也有所调整,从每百万输入令牌(约750,000个单词)5美元或每百万输出令牌15美元降至每百万输入令牌2美元和每百万输出令牌10美元。
xAI还计划在未来几周内将图像生成模型Aurora加入API,Aurora是一款基本未经过滤的图像AI模型,本月已在X上发布。
这次升级不仅提升了Grok模型的性能,也为xAI在AI聊天机器人和图像生成领域的竞争力增添了新的砝码。
谷歌最新发布了其先进的视频生成模型Veo 2和图像生成模型Imagen 3,同时推出了全新的图像生成实验工具Whisk。在谷歌的测试中,OpenAI的Sora视频生成模型表现最差,而可灵成为视频生成领域的顶流之一。
Veo 2能够生成各种主题和风格的高质量视频,对真实世界物理规律以及人类动作和表情的细微之处有了更深入的理解,提高了视频的整体细节和真实感。Veo 2的核心优势包括高质量和控制力、增强的真实感和保真度、先进的运动能力以及更强大的相机控制选项。在Meta发布的MovieGenBench基准数据集上,Veo 2在整体偏好和准确遵循提示词的能力方面表现最佳。
Imagen 3则改进了图像生成能力,能够生成更明亮、构图更好的图像,并以更高的精度渲染更多样化的艺术风格。Imagen 3能够更忠实地遵循提示词,并呈现更丰富的细节和纹理。Imagen 3将在Google Labs的图像生成工具ImageFX中全球推出,覆盖100多个国家。
Whisk是谷歌实验室推出的最新实验项目,允许用户输入或创建图像,以表达他们心目中的主题、场景和风格。然后,用户可以将它们组合在一起,并重新混合,创造出独特的作品。Whisk结合了最新的Imagen 3模型和Gemini的视觉理解和描述能力,为用户提供了轻松地以有趣的新方式重新混合主题、场景和风格的可能。
微信咨询
关注公众号
回顶部