HomeAI大模型每日早报
AI大模型每日早报

AI大模型每日早报

@常政

每天上班前5分钟,一文览尽AI大模型最新资讯!
订阅18
文章61
最后更新:2024-9-5 7:55
查看 【AI大模型每日早报】 详情查看 【常政】 主页
分享到微信打开

免费内容

2024-9-25 8:3

AI大模型早报#0925:OpenAI开放ChatGPT高级语音模式、英伟达开源NVLM 1.0屠榜多模态

导读:今天凌晨,OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式,支持50多种语言和中文模式,增强了交互性和应用场景。英伟达研究团队推出了多模态大型语言模型NVLM 1.0,在视觉-语言任务上取得了显著成果,并强调了训练数据质量和多样性的重要性。 伯克利MemGPT团队创立了AI初创公司Letta,获得了Jeff Dean等知名天使投资人的支持,其技术有望改变AI行业。字节跳动发布了两个视频生成大模型,提升了审美和动幅,解决了多主体互动和一致性问题。潞晨科技尤洋在专访中表示,已在AI基础设施领域取得了显著进展,发布了开源视频生成模型Open-Sora,并重视开源社区建设。在蛋白质设计领域,上海交大洪亮团队提出了低成本、全自动的CPDiffusion模型,能高效设计功能型蛋白质。武汉纺织大学团队发布了首个多缝线刺绣生成对抗网络模型,为刺绣艺术的数字化创新提供了新工具。此外,CAIS发布了新基准,悬赏50万美元挑战AI极限,旨在推动AI模型的发展。 在社交领域,一款名为SocialAI的新应用允许用户与AI机器人互动,模拟社交网络体验,满足用户的社交需求。AI绘图方面,南开大学团队在OPENAIGC开发者大赛中获奖,其项目简化了AI绘图流程,提升了用户体验。瓴羊智能科技强调AI与业务场景的融合,推出了覆盖数据治理到业务应用全周期的产品矩阵。在气候预测方面,IBM与NASA合作发布了通用AI模型Prithvi WxC,可用于天气和气候预测,具有多项挑战性任务上的优异表现。上交大和复旦中山医院团队开发的糖尿病专用大模型Diabetica,为糖尿病患者提供了个性化医疗支持。 最后,法国初创团队Kyutai开源了实时语音模型Moshi,实现了全双工口语对话,突破了传统AI对话模型的限制。【前沿动态】刚刚,OpenAI开放ChatGPT高级语音模式,会50多种语言!摘要: OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式,新增自定义指令、语音记忆存储、5种新声音、语速以及50多种语音,支持中文模式。用户可以用自然语音与ChatGPT交互,并随时打断它。语音模式可扩大其应用场景,如教育、法律、商务、医疗等领域。此举兑现了OpenAI的承诺,让用户体验更加丰富多彩。阅读详细内容 【前沿动态】英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升摘要: 英伟达研究团队推出了NVLM 1.0系列多模态大型语言模型,该模型在视觉-语言任务上取得了与GPT-4o等领先的闭源和开源模型相媲美的成果。NVLM 1.0在纯文本性能上甚至超过了所采用的LLM主干模型,尤其是在文本数学和编码任务上表现优异。研究团队提出了一种全新架构,结合了纯解码器和基于交叉注意力的模型优势,并引入了1-D图块标签设计,显著提高了多模态推理和OCR相关任务的性能。此外,研究还强调了训练数据的质量和多样性对模型性能的重要性,并通过精心整合高质量的纯文本数据集,辅以多模态数学和推理数据,进一步提升了模型在各模态上的能力。NVLM 1.0提供了三种可选架构,包括仅解码器的NVLM-D、基于交叉注意力的NVLM-X和混合架构的NVLM-H,以适应不同的应用场景。阅读详细内容 【市场融资】伯克利MemGPT团队创业,要做开源的OpenAI,Jeff Dean也投了摘要: Letta,一家由伯克利博士生创立的AI初创公司,通过提供让AI模型记忆用户和对话的技术,有望彻底改变人工智能行业。该公司获得了由Felicis领投的1000万美元种子资金,并得到了Jeff Dean等知名天使投资人的支持。其技术MemGPT,旨在解决大语言模型无状态的问题,让AI应用能随时间了解和学习用户。Letta计划通过其托管代理服务Letta Cloud,允许开发人员在云平台上部署运行有状态智能体,并提供构建AI智能体的工具。尽管面临LangChain和OpenAI的竞争,但Letta坚持开源立场,定位为OpenAI的开放替代品,助力构建更好的AI应用。阅读详细内容 【前沿动态】字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点摘要: 字节跳动于9月24日发布了两个视频生成大模型——PixelDance和Seaweed,这两款模型在审美和动幅上有所提升,并解决了多主体互动和一致性问题。新款豆包视频生成模型正在内测,可遵循复杂指令、捕捉多动作序列和主体互动,采用全新训练方法解决了多镜头切换的一致性问题。该模型支持多种风格,可生成具有高级审美和丰富细节的视频,适用于广告等多场景。实测显示,模型在人物动作、表情、镜头语言等方面表现优异,未来将逐步开放给所有用户。阅读详细内容 【人物观点】潞晨科技尤洋:300 亿市值的野心之上,我在做哪些选择?摘要: 尤洋,一位在高性能计算领域备受瞩目的博士毕业生,创立了AI基础设施创业公司潞晨科技,并在短短三年内实现了估值增长40倍。潞晨科技致力于满足AI时代对基础设施的需求,重点布局视频大模型和训推一体机,旨在提升推理能力。公司还自研并发布了全球首个开源类Sora架构视频生成模型Open-Sora,显示其在模型能力上的深化。尤洋强调,AI基础设施公司的长期壁垒在于生态,潞晨科技重视开源社区建设,拥有4万到10万深度使用其产品的开发者。公司定位清晰,旨在实现200亿到300亿市值,并达到20亿收入。此外,潞晨科技与云厂商无竞争关系,重心在于与大模型公司合作,聚焦微调领域。阅读详细内容 【前沿动态】权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质摘要: 蛋白质是生命活动的核心,其设计效率的提升对科学研究和应用至关重要。近年来,深度学习在蛋白质设计中的应用逐渐增多,但仍面临数据量大、模型复杂和蛋白活性低等问题。上海交通大学洪亮课题组研发的CPDiffusion模型,通过结合蛋白质骨架、活性位点等条件,能低成本、高效地学习蛋白质的序列、结构与功能关系,并生成多样化、高活性的新型蛋白质。该模型自动识别保守区,提高序列多样性,且无需专家指导。通过该模型设计的新型内切核酸酶KmAgo、PfAgo,DNA剪切活性提升10倍以上,为蛋白质工程研究开启了新篇章。此外,该模型还扩展了蛋白质数据库,为科学家提供了丰富资源。该研究成果已发表于Cell Discovery,数据集和工具也已开源共享。阅读详细内容 【前沿动态】可智能生成刺绣图案!武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型,被顶级期刊TVCG录用摘要: 武汉纺织大学计算机与人工智能学院的研究团队发布了首个多缝线刺绣生成对抗网络模型MSEmbGAN,并创建了当前最大的刺绣数据集。该模型通过提高纹理真实度和色彩保真度等关键方面的精度,成功合成了包含多种缝线纹理和色彩的多针刺绣图像。研究亮点包括两个协作的子网络,一个确保刺绣纹理多样性,另一个保持颜色一致性。该研究成果优于目前最先进的刺绣合成和风格转换方法,为刺绣艺术的数字化创新提供了新的工具和技术支持。相关论文已被顶级期刊TVCG录用,并开源了包含30K+图像的多针刺绣数据集。阅读详细内容 【前沿动态】抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题摘要: 随着AI模型性能的不断提升,现有的基准测试已无法满足评估需求。为此,CAIS与Scale AI合作,推出名为“Humanity's Last Exam”的新基准,旨在收集最顶尖人类专家才能回答的问题,以挑战AI极限。该基准筹集50万美元,用于奖励提出优秀问题的人,问题范围不限,难度要求极高。提交的问题需要经过AI评估、答案解释、同行评审等步骤,最终入选者将成为论文合作者。此举旨在推动AI模型的发展,并鼓励专家参与挑战。问题提交截止日期为2024年11月1日。阅读详细内容 【行业落地】这个「微博」,几万个 AI 和你互动,成就你的「大 V 梦」摘要: 一款名为SocialAI的新应用允许用户与AI机器人互动,模拟成为社交网络中的大V。用户可以定制个性化的AI粉丝和喷子,为推文点赞、评论,满足网络社交需求。该应用旨在帮助用户感受到被倾听,提供一个像紧密社区一样进行反思、支持和反馈的空间。创始人Michael Sayman认为,许多社交媒体公司的结构和激励措施不利于用户福祉,而SocialAI旨在以真实、切实的方式帮助人们。该应用依靠OpenAI的API提供技术支持,Sayman希望通过这种方式刺激用户对于问题的不同思考。阅读详细内容 【行业落地】AI绘图智能体 丨 OPENAIGC开发者大赛高校组AI创新之星奖摘要: 在第二届拯救者杯OPENAIGC开发者大赛中,南开大学山海绘卷团队的“AI绘图智能体”项目获高校组AI创新之星奖。该项目通过LangChain框架和向量知识库简化了AI绘图流程,提供功能推荐、可视化调用和智能批量化操作,降低了使用门槛,提升了用户体验和效率。其核心技术包括Agent智能框架的搭建、ComfyUi的高度集成与Prompt工程,实现了高效、易用和高质量的AI绘图解决方案。未来规划构建新的Agent自动更新Ai绘图模型与技术,并搭建自我学习演化的Agent,自己迭代更新,制作效果更好的工作流。阅读详细内容 【行业落地】解码瓴羊:一群最懂数据的人如何让AI真正无处不在?摘要: 科技记者提炼要点: 瓴羊智能科技在2024云栖大会上强调,AI技术的成功应用在于与具体业务场景的深度融合。公司推出了五大产品矩阵,覆盖数据治理到业务应用全周期,特别聚焦于分析、营销和客服三大领域,通过AI大模型提升效率和用户体验。其Quick BI工具实现了智能化数据分析,降低了技术门槛;Quick Audience助力精准营销,提高转化率;Quick Service 2.0优化智能客服,提升解答准确率并缩短响应时间。此外,瓴羊还通过Dataphin加强数据治理,推出DataAgent构建智能数据资产目录。瓴羊的实践表明,AI与场景的紧密结合是推动企业数字化转型的关键。阅读详细内容 【前沿动态】23亿参数,Transformer架构,NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC摘要: IBM与NASA合作发布了新型通用AI模型Prithvi WxC,用于天气和气候预测。该模型具有23亿参数,使用MERRA-2数据集的160个变量开发,采用创新的Transformer架构。Prithvi WxC在多项挑战性任务上测试成功,包括自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。模型可解决多种应用,如根据当地天气数据创建预报、预测极端天气事件等。该模型开源,可在台式计算机上运行,潜在地提高全球气候模拟分辨率和传统模型中物理过程的表示。此外,IBM发布了降尺度模型,可放大低分辨率数据获取更多细节,用于提供极端事件的早期预警。该模型还准确重建了飓风轨迹,并改进了重力波估计。IBM与加拿大气象机构合作,定制降水预报模型。Prithvi WxC的灵活性归功于其混合架构和训练方案,能够像传统模型一样在球体上运行,也可在平坦表面运行。训练过程中,模型学会了拼凑不完整的天气数据并预测未来状态,减少了所需数据量和能耗。阅读详细内容 【前沿动态】上交大、复旦中山团队开发糖尿病专用大语言模型,助力个性化糖尿病管理摘要: 上海交通大学清源研究院与复旦大学附属中山医院的研究团队开发出一款名为Diabetica的糖尿病专用大模型。该模型通过处理大量医疗数据,为糖尿病患者提供个性化医疗支持,并为医生提供高效的医学教育和临床辅助工具。Diabetica能够应对全球糖尿病管理挑战,包括专业医师短缺、医疗资源分配不均和患者自我管理能力不足等问题。该模型展现出了在自然语言理解、医学咨询和医学教育方面的强大能力,为糖尿病管理带来了新的机遇。阅读详细内容 【前沿动态】开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开摘要: 法国初创团队Kyutai开源了实时语音模型Moshi,该模型以自然聊天、情绪丰富为特点,对标GPT-4o。Moshi由先进的流式神经音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分组成。模型在本地运行对显存有一定要求,但提供了多种版本以适应不同需求。Moshi突破了传统AI对话模型的限制,通过联合建模文本和音频,实现了全双工口语对话,支持任意动态的自然对话。该模型还在训练中引入了“内心独白”方法,显著提高了生成语音的质量。研究人员在庞大的公共英语数据上进行了预训练,确保模型的语言能力和推理能力。Moshi的开源为AI语音领域带来了创新,展示了未来语音交互的新可能性。阅读详细内容 

2024-9-5 7:55

AI大模型早报#0905:1000个智能体创建首个「AI文明」、清华EconAgent获ACL 2024杰出论文

导读:北大校友Robert Yang团队在虚拟世界中创建了首个由1000多个智能体构成的“AI文明”,这些智能体展现出类似人类社会的活动,形成独特的经济、文化体系,并能进行大规模合作。清华大学的研究团队则通过大语言模型构建智能体EconAgent,革新了计算经济学研究范式,模拟了真实经济个体的行为。同时,有关OpenAI崛起背后开放性探索的讨论,以及Ilya Sutskever的安全超级智能公司SSI完成10亿美元融资的消息,都凸显了AI领域对创新与安全的重视。 在技术应用方面,智源研究院推出了全球首个包含文生视频的模型对战评测服务,旨在促进大模型评测生态的发展。谷歌的研究揭示了大模型计数能力的问题,指出嵌入维度是关键因素。此外,AI证件照神器在GitHub上走红,以及“AI原住民”小学生利用大模型进行编程开发的新闻,都展示了AI技术在日常生活和教育领域的广泛应用。 最后,上海交通大学与哈工大深圳校区联合团队推出的“可进化游戏引擎”Delta-Engine,结合大模型与传统游戏引擎,为虚拟世界的自动演化和代码成长提供了新的可能。标题: 1000个智能体创建首个「AI文明」!北大校友放弃MIT教职打造「西部世界」摘要: 要点提炼: 1. 1000多个智能体在虚拟世界“我的世界”中创建了首个“智能体文明”,具备经济、文化、宗教和政府等结构。 2. 这些智能体是完全自主的个体,能利用工具和游戏实现目标,形成了交易市场和经济体系,以宝石作为货币。 3. 智能体开展了类似人类世界的活动,能够24小时无间断参与,且活动每天都有所不同,展现了大规模合作的能力。 4. 项目代号为“Sid”,由北大校友、MIT教授Robert Yang发起,Altera团队实现,使用GPT-4技术,智能体收集物品的能力远超其他AI。 5. 智能体被赋予不同角色,有类似人类的“生活”,能进行民主投票、传播宗教等,还可试玩游戏世界,其中Elon、T-2000、Katniss等智能体受欢迎。 6. Altera联创出教学视频,展示智能体如何帮助玩家,创始科学家Peter Wang称他们正在构建AI大脑,模拟人类特质。 7. Project Sid旨在探索构建由AI智能体组成的文明,最终将数字人无缝整合到人类社会中,实现真正自主的智能体。阅读详细内容 标题: 清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式摘要: 清华大学的研究团队凭借其论文《EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities》(论文地址)荣获了自然语言处理顶会ACL 2024的杰出论文奖。该研究通过利用大语言模型(LLM)构建智能体EconAgent,模拟了个体在宏观经济系统中的工作与消费行为。相比传统的基于代理的建模(ABM),这种方法涌现出了更稳定、真实的宏观经济现象。研究团队的成员包括李念、李勇教授、高宸助理研究员和廖庆敏教授。通过赋予智能体差异化的画像和对真实经济环境的感知能力,EconAgent能够综合考虑多类经济因素做出自主决策,有效模拟了真实经济个体的行为。此外,研究还探究了EconAgent的决策行为,验证了其与现实世界中人类行为的吻合度,并成功模拟了重要事件(如COVID-19)对宏观经济的影响。这一研究为宏观经济模拟提供了新的有效途径,展示了LLM在经济学领域的巨大潜力。阅读详细内容 标题: 跟两位亲历者聊聊 OpenAI 崛起的关键:兴趣驱动的探索,而非目标导向的马拉松摘要: 两位人工智能研究者认为,对于高远目标,开放性探索比计划更有效。他们合著的《为什么伟大不能被计划》提出这一观点。OpenAI的成功被视为目标导向,但实际上,其内部有许多开放性探索。例如,ChatGPT起初是边缘项目,却意外成功。研究者警告,仅依赖Scaling Law等计划可能走进死胡同,呼吁更多开放性探索。随着AI越来越强大,二人离开OpenAI,继续研究开放性命题,并创办基于开放性系统的公司。阅读详细内容 标题: 刚刚,Ilya新公司官宣融资10亿美元!只有10名员工,继续坚信scaling law摘要: 安全超级智能(SSI)公司完成10亿美元融资,由OpenAI前首席科学家Ilya Sutskever等联合创立,旨在开发安全的人工智能系统。投资机构包括a16z、红杉资本等,公司估值达50亿美元。尽管AI大模型公司盈利前景不明,但仍有投资者看好AI基础研究。SSI计划用资金购买算力、招聘人才,并与云提供商和芯片公司合作。Ilya离职OpenAI后专注新事业,SSI将安全和能力视为技术问题,力求通过技术突破确保AI安全。阅读详细内容 标题: 智源研究院推出全球首个包含文生视频的模型对战评测服务摘要: 智源研究院于2024年9月4日推出全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场,该服务覆盖约40款大模型,支持四大任务的自定义评测,并率先开放移动端访问入口。评测采取匿名机制,引入主观倾向阶梯评分体系,以提供更精确的模型性能差异。该服务还优化了用户交互体验,并将形成角斗场榜单公示模型能力。智源研究院持续迭代FlagEval评测体系,旨在促进大模型评测生态的发展。用户可通过移动端或官网体验模型对战。阅读详细内容 标题: 谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题摘要: 谷歌新研究发现,大模型不会数数的原因并非仅是分词器问题,而是嵌入维度不足所致。当词汇量超过嵌入维度时,模型计数准确率显著下降。研究通过两个实验验证了这一结论,并指出增加Transformer层数可能带来的影响尚未探究。该研究为大模型计数能力划定了上下界,但界限尚不够紧致,需进一步验证。阅读详细内容 标题: AI证件照神器登GitHub热榜,内置考研考公签证模版一键生成摘要: AI证件照神器HivisionIDPhotos在GitHub(地址)上走红,由西安电子科技大学博士生林泽毅开发,能实现一键生成证件照,支持考研、考公等多种模版。该神器可更换背景、轻量级抠图,且提供了API服务和Docker部署。目前,项目已获3.2K星标,用户可上传照片制作证件照,但完全从随手拍到证件照还待完善。林泽毅计划添加美颜和换装功能,此前他的算法已在国内被近百万人使用。此次选择开源,是因为他认为证件照制作这个场景已有些过时,当年曾有线上海马体的想法。阅读详细内容 标题: 第一批“AI原住民”小学生,正在用大模型搞开发摘要: 第一批“AI原住民”小学生利用大模型进行编程开发,通过小程序解决日常问题,体验编程乐趣。大模型在编程教育中的应用引发热议,有人认为其将颠覆传统编程,而有人持保留意见。微信小程序教育平台将编程教育与小程序结合,通过大模型降低编程门槛,激发学生创造力。全球多所学校参与小程序编程挑战赛,展现AI与编程教育的融合成果。阅读详细内容 标题: 上交大推出“可进化游戏引擎”!大模型加持代码自动成长,虚拟世界演化无需预设摘要: 上海交通大学与哈工大深圳校区联合团队推出了“可进化游戏引擎”Delta-Engine,结合大模型与传统游戏引擎,能自动成长出新的代码,让虚拟世界能够演化且无需预设(论文地址)。该引擎由基座引擎和代理模型构成,通过增量预测实现高效拓展。研究团队基于该引擎打造了概念游戏Delta-Pokémon,玩家可DIY专属宝可梦,实现开放角色扮演游戏(ORPG)的设想,满足玩家对自我的表达。阅读详细内容 

2024-8-30 6:33

AI大模型早报#0830:智谱发布新一代基座模型、谷歌推世界首个AI游戏引擎

导读:智谱发布了新一代基座模型,包括性能领先的语言、图像和视频处理模型,并开放了API接口,推动了AI技术的普及。谷歌推出的AI游戏引擎GameNGen则展示了AI在游戏行业的巨大潜力,可能对游戏产业产生深远影响。OpenAI正在进行新一轮融资,估值预计超过1000亿美元,反映了市场对于AI技术的极高期待。英伟达在最新财报中虽然面临股价下跌的压力,但其数据中心业务的强劲增长表明AI算力需求持续增加。同时,HuggingFace通过开源低成本AI机器人解决方案LeRobot,让更多人能够接触和使用AI机器人技术。在AI训练网络方面,Meta工程师公开了构建超大规模AI训练网络的细节,为行业提供了宝贵的经验。此外,在创业领域,前小马智行创始人孙又晗创立的AI公司Trans-N在日本获得最大种子轮融资,展现了AI技术在海外市场的商业潜力。在学术研究方面,南京大学团队利用AlphaFold2预测蛋白质构象运动的新策略,为药物设计和疾病理解提供了新工具。贾佳亚团队开发的图像和视频生成控制工具ControlNeXt则挑战了Scaling Law,为视觉内容创作提供了更强大的支持。另一方面,RL教父Sutton的研究揭示了深度学习方法在持续学习中的局限性,并提出了新的算法来保持网络的可塑性。最后,港大黄超团队推出的AnyGraph大模型首次揭秘了图大模型的Scaling Law,为图学习领域的发展提供了重要思路。标题:智谱发布新一代基座模型摘要:智谱在KDD 2024发布新一代基座模型,涵盖GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus和CogVideoX,性能达国际领先水平。清言APP上线视频通话功能,MaaS平台免费开放GLM-4-Flash API。GLM-4-Plus提升语言理解等能力,CogView-3-Plus优化文生图效果,GLM-4V-Plus强化图像/视频理解,CogVideoX开源推动AI视频生成发展。智谱持续以先进技术普惠用户。阅读详细内容。注:编者特地调用了新发布的GLM-4-Plus,阅读新闻全文并原汁原味输出上面的摘要进入GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus访问网址进入CogVideoX GitHub网址进入清言APP申请体验网址标题: 谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真摘要: 谷歌研究者推出世界首个完全由AI驱动的游戏引擎GameNGen,能以每秒20帧的速度实时生成DOOM游戏画面,且60%的片段让玩家难以区分是AI生成还是真实游戏。该引擎利用扩散模型预测每一帧,不依赖传统游戏引擎的编码软件,颠覆了游戏开发方式,可显著降低开发时间和成本,并对全球2000亿美元的游戏产业可能产生深远影响。GameNGen的出现不仅意味着游戏创作民主化,小型工作室和个人创作者也能创造复杂互动体验,还为全新游戏类型打开了大门。同时,该引擎仍面临一些限制,如数据集瓶颈等挑战。尽管如此,GameNGen仍是一个非常出色的概念验证,展示了AI在游戏行业的巨大潜力。阅读详细内容 标题: OpenAI估值将冲破千亿美金!微软再次输血,新一轮融10亿摘要: OpenAI正在进行新一轮融资,估值预计超过1000亿美元,将成为身价最高的AI初创公司。尽管最近风波不断,但资本仍选择相信OpenAI。此轮融资由风投公司兴盛资本领投,微软等大股东也可能参与投资。OpenAI急需资金来训练新一代大模型,应对竞争对手的围攻,并保持ChatGPT在聊天机器人市场的领先地位。同时,OpenAI也面临着如何盈利和应对泡沫风险的挑战。微软虽继续投资OpenAI,但二者关系也面临考验,微软同时在开发自己的大模型,且将OpenAI视为竞争对手。阅读详细内容 标题: 人人都能玩得起AI机器人!HuggingFace开源低成本解决方案摘要: 当前AI机器人已能承担各种工作,但成本较高。LeRobot作为一种低成本解决方案,由前特斯拉工程师领导,允许用户从零组装机械臂并训练其完成简单任务,单个成本约200美元。该项目基于开源硬件和软件,提供了详细的构建指南,并计划推出更经济的版本。专业人士认为AI机器人有望成为这个时代的PC,而网友们对其表示热切期待。项目发布后,已有开发者利用开源资源进行尝试,展现了开源社区的力量。阅读详细内容 标题: 深度揭秘:Meta工程师如何构建超大规模AI训练网络?摘要: Llama 3.1 405B是LLM界的开源佼佼者,不仅公开了模型权重,还详细介绍了算法和工程方法。此外,团队还披露了训练基础设施的细节,包括面对频繁的硬件故障挑战。为应对这些挑战,Meta工程师发表了新论文,介绍如何设计、实施和运营大规模AI训练网络,其中涉及AI多个团队的智慧。在选择通信技术时,团队考虑到TCP/IP和专有技术的限制,最终选择RoCEv2作为主要的节点间通信机制,以实现高性能和灵活性。网络拓扑采用前后端分离设计,支持数千甚至数万个GPU。面对AI训练的路由和负载均衡问题,团队对ECMP机制进行了创新优化。阅读详细内容 标题: 英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生摘要: MLPerf Inference发布了最新测试结果,英伟达Blackwell架构芯片展现出显著性能提升,刷新了部分任务上的测试纪录。该架构首次亮相于GTC大会,采用4nm工艺,配备第二代Transformer引擎。Blackwell成功的原因之一是使用4位浮点精度(FP4)运行模型,另一原因是内存带宽几乎翻倍。同时,H200 GPU采用了HBM3e技术,在各模型上的测试结果表现优异。本轮测试还涉及了Mixtral 8x7B模型和Stable Diffusion XL,性能提升主要归功于软件栈的关键优化。阅读详细内容 标题: 跌去 2000 亿美元,「AI 卖铲人」英伟达怎么了?摘要: 英伟达公布2025财年Q2财报,营收创历史新高,达300亿美元,同比增长122%,数据中心业务破纪录。然而,股价下跌6.6%,因数据中心环比增长放缓,引发市场担忧。老黄强调投资英伟达有高回报,但AI应用尚未盈利。数据中心业务增长主要来自云厂商和互联网公司,但未来增长不确定。老黄认为算力需求将持续增加,加速计算和生成式AI是数据中心市场的核心动力。阅读详细内容 标题: 前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资摘要: 孙又晗离开自动驾驶卡车公司「擎天智卡」后,进行全球考察,创业思路发生转变。他与那小川共同创立AI公司Trans-N,在日本市场推出会议纪要、协议分析等AI产品。孙又晗认为创业不仅是追求技术深度,更要注重产品的实用性和盈利能力。Trans-N已完成1.55亿日元种子轮融资,致力于打造平台型公司。阅读详细内容 标题: 准确预测蛋白质「运动」?AlphaFold融合物理知识,南京大学团队蛋白构象运动新策略摘要: 南京大学、香港浸会大学、中国科学院大学、昌平实验室和莱斯大学的研究团队,提出了一种结合AlphaFold2和蛋白质能量挫折分析的新方法,用于预测蛋白质在生物系统中发挥作用时的构象运动。该策略通过增强AlphaFold2预测能力,利用局部能量挫折特征,为蛋白质运动生成替代结构和途径,有助于理解蛋白质的工作方式。研究表明,将AI与生物物理结合,对药物设计、酶工程和理解疾病机制等实际应用有重大影响。相关论文(论文链接)发布在《PNAS》上。阅读详细内容 标题: 视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law摘要: 科技记者提炼要点: 近期,由思谋科技创始人、港科大讲座教授贾佳亚团队开发的全新图像和视频生成控制工具——ControlNeXt引起了广泛关注。该工具(项目链接)在生成速度、精准控制和用户友好性等方面对现有的图像扩散模型进行了全方位优化,只需少量训练参数,便实现了多样化的生成效果。ControlNeXt兼容多款图像和视频生成模型,支持多种控制条件,如边缘、掩模、景深和姿势等,为视觉内容创作提供了更强大的工具。其创新之处在于轻量级条件控制模块的设计和交叉归一化技术的使用,有效降低了计算成本和内存占用,同时提高了训练速度和推理效率。贾佳亚团队的这一成果不仅展示了他们在AI领域的深厚实力,也为大模型的发展提供了新的思路。阅读详细内容 标题: 深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature摘要: 最新研究揭示,标准的深度学习方法在持续学习环境中逐渐丧失可塑性,导致学习效果下降。该研究由人工智能先驱Richard S. Sutton等发表在《Nature》杂志(论文链接),使用ImageNet数据集证明了这一点。研究团队提出「持续反向传播算法」,通过随机重新初始化部分网络单元来维持可塑性。实验显示,结合梯度下降和随机非梯度成分的方法能保持网络的可变性和学习能力。此外,研究还确定了L2正则化、收缩扰动和持续反向传播的超参数,以优化持续学习任务中的平均分类准确度。该研究对推动持续学习和人工智能的发展具有重要意义。阅读详细内容 标题: 港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law摘要: 香港大学数据智能实验室推出的AnyGraph大模型(项目地址、论文链接),通过图混合专家等技术解决图模型泛化性问题,旨在应对结构异质性、特征异质性、快速适应和大模型能力涌现等关键技术挑战。AnyGraph采用MoE架构和轻量级图专家路由机制,实现跨领域强泛化性能,通过自适应且高效的图专家模型在38个图数据集上验证其卓越性能。图数据广泛应用于多个领域,解决图模型泛化性问题对图学习领域至关重要。阅读详细内容 

2024-8-29 6:49

AI大模型早报#0829:国内首个3D动作生成模型、商汤营收大涨6成来自生成式AI

导读:今日AI大模型领域的资讯涵盖了多个重要进展。在技术应用方面,元象推出了国内首个基于物理的3D动作生成模型MotionGen,通过融合大模型、物理仿真和强化学习等算法,实现了文本到复杂3D动作的无缝连接,为动画、游戏等行业带来创新。商汤2024年上半年财报显示,生成式AI收入大幅增长,占总收入比重的60%,表明AI技术在金融、医疗等领域的应用逐渐深化。在行业发展方面,OpenAI计划推出的新人工智能模型“草莓”,旨在改进新旗舰LLM“Orion”,可生成高质量训练数据,减少模型错误,并努力提高透明度。浙江大学、之江实验室和斯坦福大学的研究人员开发的深度学习模型MitoReID,通过分析线粒体表型变化来识别药物作用机制,为大规模药物发现和再利用提供了新的途径。 在硬件支持方面,Cerebras上的Llama3.1模型展现出了惊人的推理速度,为AI探索计划提供了强有力的支持。在学术方面,KDD2024全球顶级学术会议公布了多个重磅奖项,表彰了数据挖掘领域的杰出科研成果;最后我们向大家推荐Meta AI科学家朱泽园在ICML会议获得一众好评的演讲《The theory of LLMs》。标题: 元象推出国内首个基于物理的3D动作生成模型MotionGen摘要: 元象XVERSE推出了国内首个基于物理的3D动作生成模型MotionGen,该模型通过融合大模型、物理仿真和强化学习等前沿算法,允许用户通过简单文本指令快速生成逼真、流畅的复杂3D动作,这标志着中国在3D AIGC领域的重大突破。该工具不仅提高了3D角色动画制作的效率,还为动画、游戏、电影和虚拟现实行业带来了更高的创作自由度。MotionGen通过精准文本解析和真实物理规则解析,支持从基础行走到复杂肢体运动的各类动作创意需求,并能够实现文本到动作的无缝连接。此外,该模型还能根据文本中的微妙差异呈现不同的风格变化。MotionGen的技术实现基于元象自主研发的MotionGenGPT算法,该算法创新性融合了多种复杂算法,无需人工设定或调整参数,即可直接生成逼真流畅的复杂3D动作。阅读详细内容 标题: 商汤营收大涨21%,六成来自生成式AI摘要: 商汤2024年上半年财报显示,总营业收入为17.4亿元,同比增长21%,其中生成式AI收入大幅增长256%至近11亿元,占总收入比重的60%,历史上首次超越传统AI业务。尽管公司还未实现盈利,但亏损幅度已经收窄。商汤通过大装置和大模型的构建,支持大规模模型训练,推动生成式AI在金融、医疗等领域的应用,CEO徐立表示将引领行业迈向通用人工智能时代。阅读详细内容 标题: 「草莓」即将上线,OpenAI新旗舰大模型曝光,代号「猎户座」摘要: OpenAI计划今年秋天推出新人工智能「草莓」,作为聊天机器人的一部分,可能集成在ChatGPT内。「草莓」能解决未见过的数学和编程问题,并不限于技术问题。同时,OpenAI正在开发新旗舰LLM「Orion」,旨在改进GPT-4。而「草莓」旨在改进「Orion」,可生成高质量训练数据,减少模型错误。OpenAI已向安全监管人员展示「草莓」模型,努力提高透明度。未来,ChatGPT用户或可根据时间敏感程度开启或关闭「草莓」。阅读详细内容 标题: 识别精度高达76.32%,浙大、之江团队用深度学习加速大规模药物发现和再利用摘要: 浙江大学、之江实验室和斯坦福大学的研究人员开发了一种名为MitoReID的深度学习模型,该模型通过分析线粒体表型变化来识别药物的作用机制(MOA)。研究人员建立了包含570,096张细胞单细胞图像的数据集,这些细胞暴露于1,068种FDA批准的药物中,并通过时间成像监测线粒体形态和膜电位。MitoReID模型使用重新识别框架和Inflated 3D ResNet主干,提供了一种自动化且经济高效的靶标识别方法,可加速大规模药物发现和再利用。该研究成果发布在《Nature Computational Science》上(论文链接),展示了MitoReID在预测未见药物和天然化合物MOA方面的潜力,为基于细胞器表型相似性的大规模药物发现和再利用提供了新的途径。然而,该方法的性能受到数据质量、实验条件和标签注释等因素的影响,需要进一步改进和扩展。研究人员建议将药物-靶点和药物-疾病关系等更多信息整合到深度学习方法中,以提高预测准确性,并探索潜在的治疗候选药物或识别不良反应。阅读详细内容 标题: 估值160亿,上海AI芯片独角兽冲刺IPO,腾讯是大股东摘要: 上海AI芯片独角兽燧原科技正式启动A股IPO,估值高达160亿。该公司由腾讯等投资,其中腾讯为第一大股东,持股20%。燧原科技自2018年成立以来,已融资近70亿元人民币,主打AI领域云端算力产品研发,产品涵盖AI加速卡、智算集群等。创始人赵立东为前AMD高管,与清华电子系校友共同塑造了中国半导体产业的半壁江山。随着AI芯片国产替代关注度提升,燧原科技等初创企业开始在资本市场崭露头角。阅读详细内容 标题: 陶哲轩最新演讲:AI时代,数学研究将进入前所未有的规模摘要: 陶哲轩在IMO 2024的演讲中深入探讨了AI与数学的关系,强调AI将推动数学研究达到前所未有的规模。他讲述了机器辅助计算的传统与演变,从早期的机械计算机到现代AI工具的应用。陶哲轩认为,AI和机器学习可以处理大量数学问题,加速研究进程,并透露自己使用GPT-4和GitHub Copilot辅助数学证明。他还提到,长期以来,机器在科学计算中发挥着重要作用,而现在AI的发展为数学研究带来了新的可能性。此外,陶哲轩提及了SAT求解器和SMT求解器等工具在数学逻辑问题中的应用,尽管这些工具有局限性,但它们展示了机器在数学研究中的潜力。总之,陶哲轩的演讲展现了AI与数学结合的广阔前景。阅读详细内容 标题: 在Cerebras上的推理速度 ‣ Llama3.1-70B:每秒处理450token…摘要: Cerebras上的Llama3.1模型展现出了惊人的推理速度,其中70B版本的模型每秒能处理450个token,比GPU快20倍,而8B版本更是每秒可处理1,700个token。除此之外,其每百万个token的费用仅为60美分,是超大规模计算提供商的五分之一,且全16位精度保证了模型的完整准确性。此外,开发者还可以享受到宽松的速率限制。这一技术的推出预示着人工智能时代的新篇章,为AI探索计划提供了强有力的支持。阅读详细内容 标题: 模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert摘要: 在推荐系统领域,深度神经网络(DNNs)和图神经网络提升了协同过滤(CF)的推荐质量,但面临新用户/商品的冷启动问题。语言模型(LMs)的泛化能力被探索用于解决零样本学习场景的挑战。EasyRec框架(论文链接)通过结合LMs的语义理解能力和CF的协同信号,旨在提高零样本场景下的推荐性能,实现更灵活、适应性强的推荐系统。它利用文本画像和多层双向Transformer架构(如BERT)来生成用户和商品的语义表示,通过余弦相似度计算交互概率,最终生成个性化推荐。该方法有效保留协同信息,快速适应动态场景,优化了推荐系统的性能。阅读详细内容 标题: GenAI投入初现回报,谷歌全球调查:86%的企业实现6%的收入增长摘要: 要点提炼: 企业对AI的需求是将智能化工具转化为生产力。科技巨头发现企业用户市场的潜力,如企业版ChatGPT用户量激增。GenAI正被企业用于降本增效,但具体部署情况和生产力提升程度尚不明确。谷歌调查显示,使用GenAI的企业74%在一年内获得投资回报,86%的受访者收入增长6%以上。GenAI主要从四个维度提升企业效益:生产力、业务增长、用户体验和企业安全。然而,员工对AI的使用存在压力与不满,企业需要关注员工培训与参与,以平衡企业与员工需求,促进共同创造和生产力提升。阅读详细内容 标题: AI在用 |「国乒喜剧人」许昕搞的Logo火了,我用AI整了个摘要: 文章提到AI在Logo设计领域的应用,如design.com、标小智等AI工具可快速生成创意Logo,助力设计师。同时,介绍了其他Logo生成器,如Logo Diffusion和canva,提供多样化设计选项。阅读详细内容 标题: Llama-3不算真开源:今年10月,权威定义就要来了摘要: 开源AI定义引发热议,OSI提出“四项基本自由”草案。此草案要求AI模型提供源代码、权重和训练数据详情,但无需公开原始数据。新定义可能影响模型发布形式及法规制定,推动大模型技术创新。阅读详细内容 标题: KDD2024重磅奖项出炉:“最大奖项”创新奖花落加州大学Lise Getoor,李骏东摘得新星奖摘要: KDD 2024全球顶级学术会议在巴塞罗那公布多个重磅奖项,包括创新奖、新星奖、时间检验奖等。创新奖由加州大学圣克鲁斯分校的Lise Getoor教授(学者主页)获得,新星奖则由弗吉尼亚大学的李骏东助理教授(学者主页)摘得。同时,来自石溪大学、微软亚洲研究院等团队的科研成果也获得表彰。KDD是数据挖掘领域最重要的会议之一,今年为第30届,吸引了全球顶尖研究者和学者的关注。阅读详细内容 标题:The theory of LLMs|朱泽园ICML演讲整理摘要:近日现Meta的AI科学家,原微软研究院首席研究员的朱泽园 Allen-Zhu在ICML会议上关于Physics of Language Models的Tutorial获得了一众好评,引起了广泛的关注。我们认为该报告内容十分重要(原版视频:https://www.youtube.com/watch?v=yBL7J0kgldU),能够帮助学界产业界的各位对于大模型有更清晰的理解,因此翻译梳理成了中文,供大家阅读。现如今的大模型的参数量动辄成百上千亿,可谓是十分庞大的多体系统,很难以从底层的数学,统计学原理去理解清楚其内部的演化。然而在这场目标奔赴通用人工智能的史诗的征程中,我们需要建立对于大模型的一些底层认知来作为灯塔指引前进的方向。Scaling Law让我们认识到扩大模型,数据规模的重要性,但在如今AI头部公司们纷纷开始有能力创造出接近或达到GPT4能力的大模型的时候,我们也清楚地感受到为了更进一步,还需要更多的探索。基于一些合理的假设,以及实际观察到的现象,我们可以像研究自然的物理学一般去试图探索大模型的现象学理论。这种视角的研究被称为Physics of LLMs,或许会给我们建立许多重要的关于大模型的底层认知。阅读详细内容

2024-8-28 7:4

AI大模型早报#0828:字节组建大模型研究院、智谱首推免费大模型API

导读:字节跳动正积极组建大模型研究院,招揽零一万物联创黄文灏等外部人才以加强自研能力,并推出了多个AI对话产品。同时,智谱等公司推出了新一代大模型GLM-4-Flash的免费API,主打轻量化和快速响应。阿里夸克正尝试通过全面升级AI功能,来实现突破性用户体验。此外,复旦大学提出了首个基于扩散模型的视频非限制性对抗攻击框架,显示了AI在安全领域的新挑战。分子大模型Uni-Mol+的升级则加速了量子化学属性预测,提升了计算材料和药物设计的效率。还需要关注的是,Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争,突显了开源大模型在商业化过程中的困难。最后,我们将向您推荐Sebastian Raschka教授颇受关注的书籍《从零构建大模型》。标题: 字节成立大模型研究院,疯狂氪金 AI 人才摘要: 字节跳动正在秘密筹备大模型研究院,积极招揽人才,已有外部AI专家加入,直接向张一鸣汇报。字节自研的大模型“云雀”及AI对话产品“豆包”已上线,另一产品Coze也推出海外版及国内版“扣子”,旨在快速创建AI聊天机器人。过去,字节大模型团队的人才主要来自内部业务线,如今则从外部招揽人才,如黄文灏博士,他在Deep Learning领域有丰富经验,并在微软亚洲研究院、智源研究院等机构工作过,之前是零一万物联创,现加入字节负责大模型相关工作。阅读详细内容 标题: 真香!智谱大模型,有了首个免费的API摘要: 大模型API进入Flash时代,国内外推出多款轻量级、高响应速度的大模型。智谱推出GLM-4-Flash(进入体验地址),支持128K长上下文推理,每秒生成115个字符。模型已免费开放,并推出微调功能,助力开发者快速构建个性化应用。GLM-4-Flash在实际应用中表现出色,可用于科研、翻译、内容创作等领域,推动AI技术大规模应用。阅读详细内容 标题: 夸克持续焕新用户体验 阿里“AI驱动”战略迸发无限可能摘要: 8月27日,阿里智能信息事业群旗下夸克发布全新PC端,全面升级AI搜索、AI写作、AI PPT、AI文件总结等功能,通过“系统级全场景AI”能力,让电脑秒变AI电脑。该升级大幅提升用户使用搜索、写作等功能的效率,实现突破性用户体验,创新践行“AI驱动”战略。夸克自升级AI搜索以来,市场表现强劲,6月高考季AI搜索使用量超1亿次,且在《2024年第二季度iOS实力AI产品排行榜》中位居榜首。未来,夸克将继续保持快速迭代,为用户创新一站式、多端一体的AI服务。阅读详细内容 标题: LLM取代的第一个编程语言竟是SQL?网友吵翻天摘要: AI是否将取代SQL的争论持续升温。Abacus.AI的CEO Bindu Reddy声称LLM已能以超95%的准确率生成SQL代码,超越人类程序员的平均水平,并展示了AI工具的实力。然而,此言论引发质疑,有网友和专业人士指出实际体验与Bindu所言不符,AI生成的SQL代码常需大量修改,且在复杂查询中表现不佳。现有数据显示,最先进的模型在Text-To-SQL任务中的准确率远低于95%。尽管AI在编程领域的影响力不断上升,但其在数据处理和查询分析方面仍需专业工具的辅助。因此,AI完全取代SQL的说法尚待验证。阅读详细内容 标题: ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它摘要: 复旦大学团队提出了面向视频模型的对抗攻击方法ReToMe-VA(论文链接),采用扩散模型与逐时间步优化策略,实现空间不可感知性,并引入递归token合并策略提升迁移性和时序一致性。该方法针对深度神经网络(DNNs)的鲁棒性挑战,通过非限制性对抗攻击,生成更自然的对抗样本,有效应对安全威胁。实验显示,ReToMe-VA在白盒和黑盒攻击中均优于现有方法,且在多种防御方法上表现出鲁棒性。阅读详细内容 标题: 分子大模型升级,Uni-Mol+加速量子化学属性预测,深势科技、北大研究登Nature子刊摘要: 深势科技推出的Uni-Mol是一款强大的分子三维结构通用大模型,其升级版Uni-Mol+通过增加参数量、预训练数据量以及优化模型架构,实现了更高的预测精度和通用性。Uni-Mol+采用深度学习方法,利用3D构象精确预测量子化学属性,有效提升了计算材料和药物设计的效率。该模型在PCQM4MV2和Open Catalyst 2020基准测试中超越现有解决方案,证明了其在复杂材料系统相互作用捕捉及计算材料科学任务中的广泛应用潜力。此外,全面的消融研究进一步验证了模型设计和训练策略的有效性。相关研究(论文链接)已在《Nature Communications》发表。阅读详细内容 标题: Llama3.1根本卖不动!业内人士:开源模型成本反而更高摘要: Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争。据报道,AWS的企业客户更倾向使用闭源模型Claude,而微软也更愿推介Llama给有数据专业知识的公司。这突显了开源大模型在商业化过程中的困难,其实际效果和商业回报未能满足企业预期。百度智能云的忻舟认为,开源模型因未开放关键信息,无法像开源软件一样靠社区提升效果,且因缺乏商业模式而难以持续迭代。此外,开源模型的总成本可能更高,因其需额外投入以达到闭源模型效果。忻舟表示,闭源模型在硬件成本、业务收益等方面具优势,更适合大型商业项目,而开源模型则适用于学术研究和特定场景。阅读详细内容 标题: 会议 | 大模型时代,绿色计算这条路该怎么走?摘要: 要点提炼: 随着人工智能大模型的发展,智能算力需求急剧上升,带来能耗和成本挑战。为实现可持续发展,构建绿色低碳、高经济性、高质量的大规模智算基础设施成为行业热点。2024年外滩大会期间(9月4日下午),蚂蚁集团等将主办“绿色计算:大规模智能算力时代可持续发展之路”闭门会,探讨建立绿色高效、软硬协同的算力基础设施,平衡智能发展与双碳目标。会议定向邀约业界专家,共议未来绿色计算解决路径。阅读详细内容 标题:教程 | 神书《从零构建大模型》分享,尚未发布,GitHub标星22k《从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教 Sebastian Raschka教授。在本书中,读者将从内到外了解 LLM 的工作原理。在这本富有洞察力的书中,作者将指导读者逐步创建自己的 LLM,并用清晰的文本、图表和示例解释每个阶段。读者将从最初的设计和创建到在通用语料库上进行预训练,再到针对特定任务进行微调。本书GitHub本书网页阅读