科技资讯

TurboEdit 在少步骤扩散模型的背景下解决了精确图像反演和松散图像编辑的挑战。该方案采用基于编码器的迭代反演技术,使反演网络以输入图像和上一步的重建图像为条件,以校正输入图像的下一个重建。

我们发现,通过详细的文本提示,可以在多步扩散模型中轻松实现松散控制。为了操作反转图像,我们冻结噪声图并修改文本提示中的一个属性,从而生成与输入图像相似的新图像,仅更改了一个属性。

迭代反演技术有助于实时进行逼真的文本引导图像编辑,在反演(一次性成本)中只需要8次功能评估(NFE),每次编辑需要4次NFE。该方法不仅速度快,而且明显优于最先进的多步扩散编辑技术。

要点

  1. **精确图像反…

** xAI 宣布发布 Grok-2 和 Grok-2 mini 的测试版,这两款模型在聊天、编码和推理方面展现了前沿能力,并在 LMSYS 竞赛榜单上表现出色。**

xAI正式推出了 Grok-2 和 Grok-2 mini 的测试版,这两款模型分别作为 Grok-1.5 的大型和小型升级,在多项标准测试中展现了显著的提升。Grok-2 在 LMSYS 竞赛榜单上以 “sus-column-r” 的名义参赛,其 Elo 得分超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。

Grok-2 和 Grok-2 mini 目前处于 𝕏 平台的测试阶段,预计将于本月晚些…

AI 的危险在于,它让你跳过思考,让机器填补思想的空白。我们需要 AI 使我们增加思考,而不是减少思考。我们每外包一个想法,就会错失一次成长的机会。

随着微软、Facebook、Google和苹果等公司的AI技术融合,人们越来越依赖于机器来“填补思考的空缺”。然而,作者提出了一个问题:我们是否可以利用AI来更多地思考,而不是减少思考?

文章提出了一系列的方法来“颠倒”我们对AI的依赖,转而使用AI来激发更深层次的思考。例如,可以让ChatGPT提出问题来帮助我们阐明写作的初衷和想法,而不是直接向AI提问。

作者鼓励读者在使用AI生成的内容时,保持原创性,不要直接使用AI的文本,而…

OpenAI 正在测试一个名为 SearchGPT 的原型,旨在通过结合 AI 模型的强大功能与网络信息,为用户提供快速、及时且具有清晰和相关来源的答案。

SearchGPT 是 OpenAI 推出的一个新型 AI 搜索功能原型,目的是为了让用户能够更快捷、便捷地在网络上获取答案。该原型将直接以对话的形式回答用户的问题,并提供来自网络的最新信息,同时明确提供相关源的链接。用户可以进行后续问题的提问,AI 模型将在对话中保持上下文信息。

OpenAI 致力于与出版商和内容创作者合作,通过 AI 搜索高亮优质内容,同时为用户提供更多选择。SearchGPT 设计了直接引用和链接到出版商…

DeepMind 的 AI 系统 AlphaProof 和 AlphaGeometry 2 首次实现了解决国际数学奥林匹克(IMO)问题的银牌水平,解决了四个出题。

DeepMind 宣布其人工智能系统 AlphaProof 和 AlphaGeometry 2 在国际数学奥林匹克(IMO)问题上的突破。AlphaProof 系统通过自我训练来证明数学陈述,它结合了预训练的语言模型和 AlphaZero 强化学习算法。AlphaGeometry 2 是一个改进的神经象征混合系统,用于解决几何问题。这两个系统在 IMO 2024 的问题上得分 28 分,相当于银牌水平。DeepMind…

安德烈·卡帕蒂(Andrej Karpathy)宣布成立了一个名为Eureka Labs的AI+教育公司,旨在构建一个与AI原生相结合的新型学校,通过生成AI辅助的课程材料,提供理想的学习体验。

安德烈·卡帕蒂宣布他将全职致力于他的新创立的公司Eureka Labs,该公司专注于AI与教育的结合。他认为,通过AI辅助的课程材料,可以弥补专家教师的不足,为学生提供一个类似与费曼级别的指导的学习体验。卡帕蒂强调,他们的目标是让任何人都能轻松学习任何东西,从而扩大教育的覆盖范围和深度。

Eureka Labs的首个产品是LLM101n,一门大学水平的课程,将指导学生通过自己训练AI。卡…

SEED-Story 包括与文本内容一致的图像,并且提供了用于训练和评估的大规模数据集 StoryStream。

SEED-Story 是一个多模态长故事生成模型,它能够根据用户提供的图像和文本生成包含连贯叙事和一致的角色与风格图像的故事。该模型基于 SEED-X,并且可以通过不同的开头文本生成不同的故事。SEED-Story 的训练分为三个阶段:第一阶段是使用 ViT 特征作为输入预训练 SD-XL 的去 tokenizer;第二阶段是通过下一个单词预测和目标图像的 ViT 特征之间的图像特征回归来训练 MLLM;第三阶段是将 MLLM 回归的图像特征输入去 tokenizer …

随着生成性人工智能(GenAI)应用的爆炸性增长,开发者和投资者开始关注如何利用先进技术为最终用户提供服务。这一趋势得益于过去24个月内行业建立的平台基础设施的改进,它简化了托管、微调、数据加载和内存管理等操作。然而,由于AI代理的快速发展,很少有假设能够长时间保持有效。AI代理作为自主执行多步任务的实体,正在成为开发者构建应用的核心抽象。这促进了更快的应用开发速度,并为平台层创造了新的机会。

AI代理的出现进一步加速了应用的构建速度,并对基础设施提出了新的要求。目前,代理的最佳表现依赖于高度定制,开发者正在努力将这些技术应用于其当前状态下的适用场景。尽管存在限制,如错误率、管理需求、带宽、…

OpenAI与洛斯阿拉莫斯国家实验室(LANL)正在合作研究人工智能在生物科学研究中的安全应用。这一合作旨在评估前沿AI模型的能力,特别是在实验室物理环境中,通过多模态能力如视觉和语音协助科学家完成任务。

这项合作遵循了白宫的一项行政命令,要求能源部国家实验室帮助评估前沿AI模型的能力。

OpenAI已经在医疗领域展现了其技术的应用,例如Moderna使用OpenAI的技术来辅助临床试验的数据分析,而Color Health则利用GPT-4o构建了一个辅助医疗提供者做出基于证据的决策的副驾驶。

OpenAI和LANL的评估研究将是首次考虑AI生物安全评估的实验,它将基于OpenAI关于生…

本文分享了在过去一年中使用大型语言模型(LLMs)进行产品开发的经验教训,涵盖了从实战技巧、日常运营到战略规划的各个方面。

在过去的一年里,大型语言模型(LLMs)已经成为实际应用中的一个重要工具。随着LLMs的不断改进和成本的降低,预计到2025年将有2000亿美元的投资。

LLMs的API使得它们更加易于访问,允许非机器学习工程师和科学家也能够将智能功能融入到他们的产品中。尽管进入门槛降低,但构建有效且超越示例的产品仍然具有挑战性。

作者分享了以下几个方面的经验:

  • 实战技巧:包括提示工程(prompting)、信息检索/生成(RAG)、调优和优化工作流程、评估…