AI大模型早报#0830:智谱发布新一代基座模型、谷歌推世界首个AI游戏引擎

AI大模型每日早报常政2024-8-30 6:33

导读:智谱发布了新一代基座模型,包括性能领先的语言、图像和视频处理模型,并开放了API接口,推动了AI技术的普及。谷歌推出的AI游戏引擎GameNGen则展示了AI在游戏行业的巨大潜力,可能对游戏产业产生深远影响。OpenAI正在进行新一轮融资,估值预计超过1000亿美元,反映了市场对于AI技术的极高期待。英伟达在最新财报中虽然面临股价下跌的压力,但其数据中心业务的强劲增长表明AI算力需求持续增加。同时,HuggingFace通过开源低成本AI机器人解决方案LeRobot,让更多人能够接触和使用AI机器人技术。在AI训练网络方面,Meta工程师公开了构建超大规模AI训练网络的细节,为行业提供了宝贵的经验。此外,在创业领域,前小马智行创始人孙又晗创立的AI公司Trans-N在日本获得最大种子轮融资,展现了AI技术在海外市场的商业潜力。

在学术研究方面,南京大学团队利用AlphaFold2预测蛋白质构象运动的新策略,为药物设计和疾病理解提供了新工具。贾佳亚团队开发的图像和视频生成控制工具ControlNeXt则挑战

了Scaling Law,为视觉内容创作提供了更强大的支持。另一方面,RL教父Sutton的研究揭

示了深度学习方法在持续学习中的局限性,并提出了新的算法来保持网络的可塑性。最后,港大黄超团队推出的AnyGraph大模型首次揭秘了图大模型的Scaling Law,为图学习领域的

发展提供了重要思路。

标题:智谱发布新一代基座模型

摘要:智谱在KDD 2024发布新一代基座模型,涵盖GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus和CogVideoX,性能达国际领先水平。清言APP上线视频通话功能,MaaS平台免费开放GLM-4-Flash API。GLM-4-Plus提升语言理解等能力,CogView-3-Plus优化文生图效果,GLM-4V-Plus强化图像/视频理解,CogVideoX开源推动AI视频生成发展。智谱持续以先进技术普惠用户。阅读详细内容

注:编者特地调用了新发布的GLM-4-Plus,阅读新闻全文并原汁原味输出上面的摘要

进入GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus访问网址

进入CogVideoX GitHub网址

进入清言APP申请体验网址

标题: 谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真

摘要: 谷歌研究者推出世界首个完全由AI驱动的游戏引擎GameNGen,能以每秒20帧的速度实时生成DOOM游戏画面,且60%的片段让玩家难以区分是AI生成还是真实游戏。该引擎利用扩散模型预测每一帧,不依赖传统游戏引擎的编码软件,颠覆了游戏开发方式,可显著降低开发时间和成本,并对全球2000亿美元的游戏产业可能产生深远影响。GameNGen的出现不仅意味着游戏创作民主化,小型工作室和个人创作者也能创造复杂互动体验,还为全新游戏类型打开了大门。同时,该引擎仍面临一些限制,如数据集瓶颈等挑战。尽管如此,GameNGen仍是一个非常出色的概念验证,展示了AI在游戏行业的巨大潜力。阅读详细内容 

标题: OpenAI估值将冲破千亿美金!微软再次输血,新一轮融10亿

摘要: OpenAI正在进行新一轮融资,估值预计超过1000亿美元,将成为身价最高的AI初创公司。尽管最近风波不断,但资本仍选择相信OpenAI。此轮融资由风投公司兴盛资本领投,微软等大股东也可能参与投资。OpenAI急需资金来训练新一代大模型,应对竞争对手的围攻,并保持ChatGPT在聊天机器人市场的领先地位。同时,OpenAI也面临着如何盈利和应对泡沫风险的挑战。微软虽继续投资OpenAI,但二者关系也面临考验,微软同时在开发自己的大模型,且将OpenAI视为竞争对手。阅读详细内容 

标题: 人人都能玩得起AI机器人!HuggingFace开源低成本解决方案

摘要: 当前AI机器人已能承担各种工作,但成本较高。LeRobot作为一种低成本解决方案,由前特斯拉工程师领导,允许用户从零组装机械臂并训练其完成简单任务,单个成本约200美元。该项目基于开源硬件和软件,提供了详细的构建指南,并计划推出更经济的版本。专业人士认为AI机器人有望成为这个时代的PC,而网友们对其表示热切期待。项目发布后,已有开发者利用开源资源进行尝试,展现了开源社区的力量。阅读详细内容 

标题: 深度揭秘:Meta工程师如何构建超大规模AI训练网络?

摘要: Llama 3.1 405B是LLM界的开源佼佼者,不仅公开了模型权重,还详细介绍了算法和工程方法。此外,团队还披露了训练基础设施的细节,包括面对频繁的硬件故障挑战。为应对这些挑战,Meta工程师发表了新论文,介绍如何设计、实施和运营大规模AI训练网络,其中涉及AI多个团队的智慧。在选择通信技术时,团队考虑到TCP/IP和专有技术的限制,最终选择RoCEv2作为主要的节点间通信机制,以实现高性能和灵活性。网络拓扑采用前后端分离设计,支持数千甚至数万个GPU。面对AI训练的路由和负载均衡问题,团队对ECMP机制进行了创新优化。阅读详细内容 

标题: 英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生

摘要: MLPerf Inference发布了最新测试结果,英伟达Blackwell架构芯片展现出显著性能提升,刷新了部分任务上的测试纪录。该架构首次亮相于GTC大会,采用4nm工艺,配备第二代Transformer引擎。Blackwell成功的原因之一是使用4位浮点精度(FP4)运行模型,另一原因是内存带宽几乎翻倍。同时,H200 GPU采用了HBM3e技术,在各模型上的测试结果表现优异。本轮测试还涉及了Mixtral 8x7B模型和Stable Diffusion XL,性能提升主要归功于软件栈的关键优化。阅读详细内容 

标题: 跌去 2000 亿美元,「AI 卖铲人」英伟达怎么了?

摘要: 英伟达公布2025财年Q2财报,营收创历史新高,达300亿美元,同比增长122%,数据中心业务破纪录。然而,股价下跌6.6%,因数据中心环比增长放缓,引发市场担忧。老黄强调投资英伟达有高回报,但AI应用尚未盈利。数据中心业务增长主要来自云厂商和互联网公司,但未来增长不确定。老黄认为算力需求将持续增加,加速计算和生成式AI是数据中心市场的核心动力。阅读详细内容 

标题: 前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资

摘要: 孙又晗离开自动驾驶卡车公司「擎天智卡」后,进行全球考察,创业思路发生转变。他与那小川共同创立AI公司Trans-N,在日本市场推出会议纪要、协议分析等AI产品。孙又晗认为创业不仅是追求技术深度,更要注重产品的实用性和盈利能力。Trans-N已完成1.55亿日元种子轮融资,致力于打造平台型公司。阅读详细内容 

标题: 准确预测蛋白质「运动」?AlphaFold融合物理知识,南京大学团队蛋白构象运动新策略

摘要: 南京大学、香港浸会大学、中国科学院大学、昌平实验室和莱斯大学的研究团队,提出了一种结合AlphaFold2和蛋白质能量挫折分析的新方法,用于预测蛋白质在生物系统中发挥作用时的构象运动。该策略通过增强AlphaFold2预测能力,利用局部能量挫折特征,为蛋白质运动生成替代结构和途径,有助于理解蛋白质的工作方式。研究表明,将AI与生物物理结合,对药物设计、酶工程和理解疾病机制等实际应用有重大影响。相关论文(论文链接)发布在《PNAS》上。阅读详细内容 

标题: 视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law

摘要: 科技记者提炼要点: 近期,由思谋科技创始人、港科大讲座教授贾佳亚团队开发的全新图像和视频生成控制工具——ControlNeXt引起了广泛关注。该工具(项目链接)在生成速度、精准控制和用户友好性等方面对现有的图像扩散模型进行了全方位优化,只需少量训练参数,便实现了多样化的生成效果。ControlNeXt兼容多款图像和视频生成模型,支持多种控制条件,如边缘、掩模、景深和姿势等,为视觉内容创作提供了更强大的工具。其创新之处在于轻量级条件控制模块的设计和交叉归一化技术的使用,有效降低了计算成本和内存占用,同时提高了训练速度和推理效率。贾佳亚团队的这一成果不仅展示了他们在AI领域的深厚实力,也为大模型的发展提供了新的思路。阅读详细内容 

标题: 深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature

摘要: 最新研究揭示,标准的深度学习方法在持续学习环境中逐渐丧失可塑性,导致学习效果下降。该研究由人工智能先驱Richard S. Sutton等发表在《Nature》杂志(论文链接),使用ImageNet数据集证明了这一点。研究团队提出「持续反向传播算法」,通过随机重新初始化部分网络单元来维持可塑性。实验显示,结合梯度下降和随机非梯度成分的方法能保持网络的可变性和学习能力。此外,研究还确定了L2正则化、收缩扰动和持续反向传播的超参数,以优化持续学习任务中的平均分类准确度。该研究对推动持续学习和人工智能的发展具有重要意义。阅读详细内容 

标题: 港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law

摘要: 香港大学数据智能实验室推出的AnyGraph大模型(项目地址论文链接),通过图混合专家等技术解决图模型泛化性问题,旨在应对结构异质性、特征异质性、快速适应和大模型能力涌现等关键技术挑战。AnyGraph采用MoE架构和轻量级图专家路由机制,实现跨领域强泛化性能,通过自适应且高效的图专家模型在38个图数据集上验证其卓越性能。图数据广泛应用于多个领域,解决图模型泛化性问题对图学习领域至关重要。阅读详细内容