AI大模型早报#0925：OpenAI开放ChatGPT高级语音模式、英伟达开源NVLM 1.0屠榜多模态

常政

2024-09-25 08:03

导读：今天凌晨，OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式，支持50多种语言和中文模式，增强了交互性和应用场景。英伟达研究团队推出了多模态大型语言模型NVLM 1.0，在视觉-语言任务上取得了显著成果，并强调了训练数据质量和多样性的重要性。伯克利MemGPT团队创立了AI初创公司Letta，获得了Jeff Dean等知名天使投资人的支持，其技术有望改变AI行业。字节跳动发布了两个视频生成大模型，提升了审美和动幅，解决了多主体互动和一致性问题。潞晨科技尤洋在专访中表示，已在AI基础设施领域取得了显著进展，发布了开源视频生成模型Open-Sora，并重视开源社区建设。

在蛋白质设计领域，上海交大洪亮团队提出了低成本、全自动的CPDiffusion模型，能高效设计功能型蛋白质。武汉纺织大学团队发布了首个多缝线刺绣生成对抗网络模型，为刺绣艺术的数字化创新提供了新工具。此外，CAIS发布了新基准，悬赏50万美元挑战AI极限，旨在推动AI模型的发展。在社交领域，一款名为SocialAI的新应用允许用户与AI机器人互动，模拟社交网络体验，满足用户的社交需求。AI绘图方面，南开大学团队在OPENAIGC开发者大赛中获奖，其项目简化了AI绘图流程，提升了用户体验。瓴羊智能科技强调AI与业务场景的融合，推出了覆盖数据治理到业务应用全周期的产品矩阵。在气候预测方面，IBM与NASA合作发布了通用AI模型Prithvi WxC，可用于天气和气候预测，具有多项挑战性任务上的优异表现。上交大和复旦中山医院团队开发的糖尿病专用大模型Diabetica，为糖尿病患者提供了个性化医疗支持。最后，法国初创团队Kyutai开源了实时语音模型Moshi，实现了全双工口语对话，突破了传统AI对话模型的限制。

【前沿动态】刚刚，OpenAI开放ChatGPT高级语音模式，会50多种语言！

摘要: OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式，新增自定义指令、语音记忆存储、5种新声音、语速以及50多种语音，支持中文模式。用户可以用自然语音与ChatGPT交互，并随时打断它。语音模式可扩大其应用场景，如教育、法律、商务、医疗等领域。此举兑现了OpenAI的承诺，让用户体验更加丰富多彩。阅读详细内容

【前沿动态】英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

摘要: 英伟达研究团队推出了NVLM 1.0系列多模态大型语言模型，该模型在视觉-语言任务上取得了与GPT-4o等领先的闭源和开源模型相媲美的成果。NVLM 1.0在纯文本性能上甚至超过了所采用的LLM主干模型，尤其是在文本数学和编码任务上表现优异。研究团队提出了一种全新架构，结合了纯解码器和基于交叉注意力的模型优势，并引入了1-D图块标签设计，显著提高了多模态推理和OCR相关任务的性能。此外，研究还强调了训练数据的质量和多样性对模型性能的重要性，并通过精心整合高质量的纯文本数据集，辅以多模态数学和推理数据，进一步提升了模型在各模态上的能力。NVLM 1.0提供了三种可选架构，包括仅解码器的NVLM-D、基于交叉注意力的NVLM-X和混合架构的NVLM-H，以适应不同的应用场景。阅读详细内容

【市场融资】伯克利MemGPT团队创业，要做开源的OpenAI，Jeff Dean也投了

摘要: Letta，一家由伯克利博士生创立的AI初创公司，通过提供让AI模型记忆用户和对话的技术，有望彻底改变人工智能行业。该公司获得了由Felicis领投的1000万美元种子资金，并得到了Jeff Dean等知名天使投资人的支持。其技术MemGPT，旨在解决大语言模型无状态的问题，让AI应用能随时间了解和学习用户。Letta计划通过其托管代理服务Letta Cloud，允许开发人员在云平台上部署运行有状态智能体，并提供构建AI智能体的工具。尽管面临LangChain和OpenAI的竞争，但Letta坚持开源立场，定位为OpenAI的开放替代品，助力构建更好的AI应用。阅读详细内容

【前沿动态】字节版Sora终于来了！一口气两款视频模型，带来的震撼不只一点点

摘要: 字节跳动于9月24日发布了两个视频生成大模型——PixelDance和Seaweed，这两款模型在审美和动幅上有所提升，并解决了多主体互动和一致性问题。新款豆包视频生成模型正在内测，可遵循复杂指令、捕捉多动作序列和主体互动，采用全新训练方法解决了多镜头切换的一致性问题。该模型支持多种风格，可生成具有高级审美和丰富细节的视频，适用于广告等多场景。实测显示，模型在人物动作、表情、镜头语言等方面表现优异，未来将逐步开放给所有用户。阅读详细内容

【人物观点】潞晨科技尤洋：300 亿市值的野心之上，我在做哪些选择？

摘要: 尤洋，一位在高性能计算领域备受瞩目的博士毕业生，创立了AI基础设施创业公司潞晨科技，并在短短三年内实现了估值增长40倍。潞晨科技致力于满足AI时代对基础设施的需求，重点布局视频大模型和训推一体机，旨在提升推理能力。公司还自研并发布了全球首个开源类Sora架构视频生成模型Open-Sora，显示其在模型能力上的深化。尤洋强调，AI基础设施公司的长期壁垒在于生态，潞晨科技重视开源社区建设，拥有4万到10万深度使用其产品的开发者。公司定位清晰，旨在实现200亿到300亿市值，并达到20亿收入。此外，潞晨科技与云厂商无竞争关系，重心在于与大模型公司合作，聚焦微调领域。阅读详细内容

【前沿动态】权威期刊Cell Discovery新成果！上海交大洪亮团队提出CPDiffusion模型，超低成本、全自动设计功能型蛋白质

摘要: 蛋白质是生命活动的核心，其设计效率的提升对科学研究和应用至关重要。近年来，深度学习在蛋白质设计中的应用逐渐增多，但仍面临数据量大、模型复杂和蛋白活性低等问题。上海交通大学洪亮课题组研发的CPDiffusion模型，通过结合蛋白质骨架、活性位点等条件，能低成本、高效地学习蛋白质的序列、结构与功能关系，并生成多样化、高活性的新型蛋白质。该模型自动识别保守区，提高序列多样性，且无需专家指导。通过该模型设计的新型内切核酸酶KmAgo、PfAgo，DNA剪切活性提升10倍以上，为蛋白质工程研究开启了新篇章。此外，该模型还扩展了蛋白质数据库，为科学家提供了丰富资源。该研究成果已发表于Cell Discovery，数据集和工具也已开源共享。阅读详细内容

【前沿动态】可智能生成刺绣图案！武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型，被顶级期刊TVCG录用

摘要: 武汉纺织大学计算机与人工智能学院的研究团队发布了首个多缝线刺绣生成对抗网络模型MSEmbGAN，并创建了当前最大的刺绣数据集。该模型通过提高纹理真实度和色彩保真度等关键方面的精度，成功合成了包含多种缝线纹理和色彩的多针刺绣图像。研究亮点包括两个协作的子网络，一个确保刺绣纹理多样性，另一个保持颜色一致性。该研究成果优于目前最先进的刺绣合成和风格转换方法，为刺绣艺术的数字化创新提供了新的工具和技术支持。相关论文已被顶级期刊TVCG录用，并开源了包含30K+图像的多针刺绣数据集。阅读详细内容

【前沿动态】抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

摘要: 随着AI模型性能的不断提升，现有的基准测试已无法满足评估需求。为此，CAIS与Scale AI合作，推出名为“Humanity's Last Exam”的新基准，旨在收集最顶尖人类专家才能回答的问题，以挑战AI极限。该基准筹集50万美元，用于奖励提出优秀问题的人，问题范围不限，难度要求极高。提交的问题需要经过AI评估、答案解释、同行评审等步骤，最终入选者将成为论文合作者。此举旨在推动AI模型的发展，并鼓励专家参与挑战。问题提交截止日期为2024年11月1日。阅读详细内容

【行业落地】这个「微博」，几万个 AI 和你互动，成就你的「大 V 梦」

摘要: 一款名为SocialAI的新应用允许用户与AI机器人互动，模拟成为社交网络中的大V。用户可以定制个性化的AI粉丝和喷子，为推文点赞、评论，满足网络社交需求。该应用旨在帮助用户感受到被倾听，提供一个像紧密社区一样进行反思、支持和反馈的空间。创始人Michael Sayman认为，许多社交媒体公司的结构和激励措施不利于用户福祉，而SocialAI旨在以真实、切实的方式帮助人们。该应用依靠OpenAI的API提供技术支持，Sayman希望通过这种方式刺激用户对于问题的不同思考。阅读详细内容

【行业落地】AI绘图智能体丨 OPENAIGC开发者大赛高校组AI创新之星奖

摘要: 在第二届拯救者杯OPENAIGC开发者大赛中，南开大学山海绘卷团队的“AI绘图智能体”项目获高校组AI创新之星奖。该项目通过LangChain框架和向量知识库简化了AI绘图流程，提供功能推荐、可视化调用和智能批量化操作，降低了使用门槛，提升了用户体验和效率。其核心技术包括Agent智能框架的搭建、ComfyUi的高度集成与Prompt工程，实现了高效、易用和高质量的AI绘图解决方案。未来规划构建新的Agent自动更新Ai绘图模型与技术，并搭建自我学习演化的Agent，自己迭代更新，制作效果更好的工作流。阅读详细内容

【行业落地】解码瓴羊：一群最懂数据的人如何让AI真正无处不在？

摘要: 科技记者提炼要点：瓴羊智能科技在2024云栖大会上强调，AI技术的成功应用在于与具体业务场景的深度融合。公司推出了五大产品矩阵，覆盖数据治理到业务应用全周期，特别聚焦于分析、营销和客服三大领域，通过AI大模型提升效率和用户体验。其Quick BI工具实现了智能化数据分析，降低了技术门槛；Quick Audience助力精准营销，提高转化率；Quick Service 2.0优化智能客服，提升解答准确率并缩短响应时间。此外，瓴羊还通过Dataphin加强数据治理，推出DataAgent构建智能数据资产目录。瓴羊的实践表明，AI与场景的紧密结合是推动企业数字化转型的关键。阅读详细内容

【前沿动态】23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

摘要: IBM与NASA合作发布了新型通用AI模型Prithvi WxC，用于天气和气候预测。该模型具有23亿参数，使用MERRA-2数据集的160个变量开发，采用创新的Transformer架构。Prithvi WxC在多项挑战性任务上测试成功，包括自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。模型可解决多种应用，如根据当地天气数据创建预报、预测极端天气事件等。该模型开源，可在台式计算机上运行，潜在地提高全球气候模拟分辨率和传统模型中物理过程的表示。此外，IBM发布了降尺度模型，可放大低分辨率数据获取更多细节，用于提供极端事件的早期预警。该模型还准确重建了飓风轨迹，并改进了重力波估计。IBM与加拿大气象机构合作，定制降水预报模型。Prithvi WxC的灵活性归功于其混合架构和训练方案，能够像传统模型一样在球体上运行，也可在平坦表面运行。训练过程中，模型学会了拼凑不完整的天气数据并预测未来状态，减少了所需数据量和能耗。阅读详细内容

【前沿动态】上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

摘要: 上海交通大学清源研究院与复旦大学附属中山医院的研究团队开发出一款名为Diabetica的糖尿病专用大模型。该模型通过处理大量医疗数据，为糖尿病患者提供个性化医疗支持，并为医生提供高效的医学教育和临床辅助工具。Diabetica能够应对全球糖尿病管理挑战，包括专业医师短缺、医疗资源分配不均和患者自我管理能力不足等问题。该模型展现出了在自然语言理解、医学咨询和医学教育方面的强大能力，为糖尿病管理带来了新的机遇。阅读详细内容

【前沿动态】开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

摘要: 法国初创团队Kyutai开源了实时语音模型Moshi，该模型以自然聊天、情绪丰富为特点，对标GPT-4o。Moshi由先进的流式神经音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分组成。模型在本地运行对显存有一定要求，但提供了多种版本以适应不同需求。Moshi突破了传统AI对话模型的限制，通过联合建模文本和音频，实现了全双工口语对话，支持任意动态的自然对话。该模型还在训练中引入了“内心独白”方法，显著提高了生成语音的质量。研究人员在庞大的公共英语数据上进行了预训练，确保模型的语言能力和推理能力。Moshi的开源为AI语音领域带来了创新，展示了未来语音交互的新可能性。阅读详细内容

返回专栏：AI大模型每日早报