HomeAI大模型每日早报
AI大模型每日早报

AI大模型每日早报

@常政

每天上班前5分钟,一文览尽AI大模型最新资讯!
订阅10
文章11
最后更新:2024-9-5 7:55
查看 【AI大模型每日早报】 详情查看 【常政】 主页
分享到微信打开

免费内容

2024-8-30 6:33

AI大模型早报#0830:智谱发布新一代基座模型、谷歌推世界首个AI游戏引擎

导读:智谱发布了新一代基座模型,包括性能领先的语言、图像和视频处理模型,并开放了API接口,推动了AI技术的普及。谷歌推出的AI游戏引擎GameNGen则展示了AI在游戏行业的巨大潜力,可能对游戏产业产生深远影响。OpenAI正在进行新一轮融资,估值预计超过1000亿美元,反映了市场对于AI技术的极高期待。英伟达在最新财报中虽然面临股价下跌的压力,但其数据中心业务的强劲增长表明AI算力需求持续增加。同时,HuggingFace通过开源低成本AI机器人解决方案LeRobot,让更多人能够接触和使用AI机器人技术。在AI训练网络方面,Meta工程师公开了构建超大规模AI训练网络的细节,为行业提供了宝贵的经验。此外,在创业领域,前小马智行创始人孙又晗创立的AI公司Trans-N在日本获得最大种子轮融资,展现了AI技术在海外市场的商业潜力。在学术研究方面,南京大学团队利用AlphaFold2预测蛋白质构象运动的新策略,为药物设计和疾病理解提供了新工具。贾佳亚团队开发的图像和视频生成控制工具ControlNeXt则挑战了Scaling Law,为视觉内容创作提供了更强大的支持。另一方面,RL教父Sutton的研究揭示了深度学习方法在持续学习中的局限性,并提出了新的算法来保持网络的可塑性。最后,港大黄超团队推出的AnyGraph大模型首次揭秘了图大模型的Scaling Law,为图学习领域的发展提供了重要思路。标题:智谱发布新一代基座模型摘要:智谱在KDD 2024发布新一代基座模型,涵盖GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus和CogVideoX,性能达国际领先水平。清言APP上线视频通话功能,MaaS平台免费开放GLM-4-Flash API。GLM-4-Plus提升语言理解等能力,CogView-3-Plus优化文生图效果,GLM-4V-Plus强化图像/视频理解,CogVideoX开源推动AI视频生成发展。智谱持续以先进技术普惠用户。阅读详细内容。注:编者特地调用了新发布的GLM-4-Plus,阅读新闻全文并原汁原味输出上面的摘要进入GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus访问网址进入CogVideoX GitHub网址进入清言APP申请体验网址标题: 谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真摘要: 谷歌研究者推出世界首个完全由AI驱动的游戏引擎GameNGen,能以每秒20帧的速度实时生成DOOM游戏画面,且60%的片段让玩家难以区分是AI生成还是真实游戏。该引擎利用扩散模型预测每一帧,不依赖传统游戏引擎的编码软件,颠覆了游戏开发方式,可显著降低开发时间和成本,并对全球2000亿美元的游戏产业可能产生深远影响。GameNGen的出现不仅意味着游戏创作民主化,小型工作室和个人创作者也能创造复杂互动体验,还为全新游戏类型打开了大门。同时,该引擎仍面临一些限制,如数据集瓶颈等挑战。尽管如此,GameNGen仍是一个非常出色的概念验证,展示了AI在游戏行业的巨大潜力。阅读详细内容 标题: OpenAI估值将冲破千亿美金!微软再次输血,新一轮融10亿摘要: OpenAI正在进行新一轮融资,估值预计超过1000亿美元,将成为身价最高的AI初创公司。尽管最近风波不断,但资本仍选择相信OpenAI。此轮融资由风投公司兴盛资本领投,微软等大股东也可能参与投资。OpenAI急需资金来训练新一代大模型,应对竞争对手的围攻,并保持ChatGPT在聊天机器人市场的领先地位。同时,OpenAI也面临着如何盈利和应对泡沫风险的挑战。微软虽继续投资OpenAI,但二者关系也面临考验,微软同时在开发自己的大模型,且将OpenAI视为竞争对手。阅读详细内容 标题: 人人都能玩得起AI机器人!HuggingFace开源低成本解决方案摘要: 当前AI机器人已能承担各种工作,但成本较高。LeRobot作为一种低成本解决方案,由前特斯拉工程师领导,允许用户从零组装机械臂并训练其完成简单任务,单个成本约200美元。该项目基于开源硬件和软件,提供了详细的构建指南,并计划推出更经济的版本。专业人士认为AI机器人有望成为这个时代的PC,而网友们对其表示热切期待。项目发布后,已有开发者利用开源资源进行尝试,展现了开源社区的力量。阅读详细内容 标题: 深度揭秘:Meta工程师如何构建超大规模AI训练网络?摘要: Llama 3.1 405B是LLM界的开源佼佼者,不仅公开了模型权重,还详细介绍了算法和工程方法。此外,团队还披露了训练基础设施的细节,包括面对频繁的硬件故障挑战。为应对这些挑战,Meta工程师发表了新论文,介绍如何设计、实施和运营大规模AI训练网络,其中涉及AI多个团队的智慧。在选择通信技术时,团队考虑到TCP/IP和专有技术的限制,最终选择RoCEv2作为主要的节点间通信机制,以实现高性能和灵活性。网络拓扑采用前后端分离设计,支持数千甚至数万个GPU。面对AI训练的路由和负载均衡问题,团队对ECMP机制进行了创新优化。阅读详细内容 标题: 英伟达Blackwell称霸MLPerf!推理性能暴涨30倍,新一代「AI怪兽」诞生摘要: MLPerf Inference发布了最新测试结果,英伟达Blackwell架构芯片展现出显著性能提升,刷新了部分任务上的测试纪录。该架构首次亮相于GTC大会,采用4nm工艺,配备第二代Transformer引擎。Blackwell成功的原因之一是使用4位浮点精度(FP4)运行模型,另一原因是内存带宽几乎翻倍。同时,H200 GPU采用了HBM3e技术,在各模型上的测试结果表现优异。本轮测试还涉及了Mixtral 8x7B模型和Stable Diffusion XL,性能提升主要归功于软件栈的关键优化。阅读详细内容 标题: 跌去 2000 亿美元,「AI 卖铲人」英伟达怎么了?摘要: 英伟达公布2025财年Q2财报,营收创历史新高,达300亿美元,同比增长122%,数据中心业务破纪录。然而,股价下跌6.6%,因数据中心环比增长放缓,引发市场担忧。老黄强调投资英伟达有高回报,但AI应用尚未盈利。数据中心业务增长主要来自云厂商和互联网公司,但未来增长不确定。老黄认为算力需求将持续增加,加速计算和生成式AI是数据中心市场的核心动力。阅读详细内容 标题: 前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资摘要: 孙又晗离开自动驾驶卡车公司「擎天智卡」后,进行全球考察,创业思路发生转变。他与那小川共同创立AI公司Trans-N,在日本市场推出会议纪要、协议分析等AI产品。孙又晗认为创业不仅是追求技术深度,更要注重产品的实用性和盈利能力。Trans-N已完成1.55亿日元种子轮融资,致力于打造平台型公司。阅读详细内容 标题: 准确预测蛋白质「运动」?AlphaFold融合物理知识,南京大学团队蛋白构象运动新策略摘要: 南京大学、香港浸会大学、中国科学院大学、昌平实验室和莱斯大学的研究团队,提出了一种结合AlphaFold2和蛋白质能量挫折分析的新方法,用于预测蛋白质在生物系统中发挥作用时的构象运动。该策略通过增强AlphaFold2预测能力,利用局部能量挫折特征,为蛋白质运动生成替代结构和途径,有助于理解蛋白质的工作方式。研究表明,将AI与生物物理结合,对药物设计、酶工程和理解疾病机制等实际应用有重大影响。相关论文(论文链接)发布在《PNAS》上。阅读详细内容 标题: 视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law摘要: 科技记者提炼要点: 近期,由思谋科技创始人、港科大讲座教授贾佳亚团队开发的全新图像和视频生成控制工具——ControlNeXt引起了广泛关注。该工具(项目链接)在生成速度、精准控制和用户友好性等方面对现有的图像扩散模型进行了全方位优化,只需少量训练参数,便实现了多样化的生成效果。ControlNeXt兼容多款图像和视频生成模型,支持多种控制条件,如边缘、掩模、景深和姿势等,为视觉内容创作提供了更强大的工具。其创新之处在于轻量级条件控制模块的设计和交叉归一化技术的使用,有效降低了计算成本和内存占用,同时提高了训练速度和推理效率。贾佳亚团队的这一成果不仅展示了他们在AI领域的深厚实力,也为大模型的发展提供了新的思路。阅读详细内容 标题: 深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature摘要: 最新研究揭示,标准的深度学习方法在持续学习环境中逐渐丧失可塑性,导致学习效果下降。该研究由人工智能先驱Richard S. Sutton等发表在《Nature》杂志(论文链接),使用ImageNet数据集证明了这一点。研究团队提出「持续反向传播算法」,通过随机重新初始化部分网络单元来维持可塑性。实验显示,结合梯度下降和随机非梯度成分的方法能保持网络的可变性和学习能力。此外,研究还确定了L2正则化、收缩扰动和持续反向传播的超参数,以优化持续学习任务中的平均分类准确度。该研究对推动持续学习和人工智能的发展具有重要意义。阅读详细内容 标题: 港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law摘要: 香港大学数据智能实验室推出的AnyGraph大模型(项目地址、论文链接),通过图混合专家等技术解决图模型泛化性问题,旨在应对结构异质性、特征异质性、快速适应和大模型能力涌现等关键技术挑战。AnyGraph采用MoE架构和轻量级图专家路由机制,实现跨领域强泛化性能,通过自适应且高效的图专家模型在38个图数据集上验证其卓越性能。图数据广泛应用于多个领域,解决图模型泛化性问题对图学习领域至关重要。阅读详细内容 

2024-8-29 6:49

AI大模型早报#0829:国内首个3D动作生成模型、商汤营收大涨6成来自生成式AI

导读:今日AI大模型领域的资讯涵盖了多个重要进展。在技术应用方面,元象推出了国内首个基于物理的3D动作生成模型MotionGen,通过融合大模型、物理仿真和强化学习等算法,实现了文本到复杂3D动作的无缝连接,为动画、游戏等行业带来创新。商汤2024年上半年财报显示,生成式AI收入大幅增长,占总收入比重的60%,表明AI技术在金融、医疗等领域的应用逐渐深化。在行业发展方面,OpenAI计划推出的新人工智能模型“草莓”,旨在改进新旗舰LLM“Orion”,可生成高质量训练数据,减少模型错误,并努力提高透明度。浙江大学、之江实验室和斯坦福大学的研究人员开发的深度学习模型MitoReID,通过分析线粒体表型变化来识别药物作用机制,为大规模药物发现和再利用提供了新的途径。 在硬件支持方面,Cerebras上的Llama3.1模型展现出了惊人的推理速度,为AI探索计划提供了强有力的支持。在学术方面,KDD2024全球顶级学术会议公布了多个重磅奖项,表彰了数据挖掘领域的杰出科研成果;最后我们向大家推荐Meta AI科学家朱泽园在ICML会议获得一众好评的演讲《The theory of LLMs》。标题: 元象推出国内首个基于物理的3D动作生成模型MotionGen摘要: 元象XVERSE推出了国内首个基于物理的3D动作生成模型MotionGen,该模型通过融合大模型、物理仿真和强化学习等前沿算法,允许用户通过简单文本指令快速生成逼真、流畅的复杂3D动作,这标志着中国在3D AIGC领域的重大突破。该工具不仅提高了3D角色动画制作的效率,还为动画、游戏、电影和虚拟现实行业带来了更高的创作自由度。MotionGen通过精准文本解析和真实物理规则解析,支持从基础行走到复杂肢体运动的各类动作创意需求,并能够实现文本到动作的无缝连接。此外,该模型还能根据文本中的微妙差异呈现不同的风格变化。MotionGen的技术实现基于元象自主研发的MotionGenGPT算法,该算法创新性融合了多种复杂算法,无需人工设定或调整参数,即可直接生成逼真流畅的复杂3D动作。阅读详细内容 标题: 商汤营收大涨21%,六成来自生成式AI摘要: 商汤2024年上半年财报显示,总营业收入为17.4亿元,同比增长21%,其中生成式AI收入大幅增长256%至近11亿元,占总收入比重的60%,历史上首次超越传统AI业务。尽管公司还未实现盈利,但亏损幅度已经收窄。商汤通过大装置和大模型的构建,支持大规模模型训练,推动生成式AI在金融、医疗等领域的应用,CEO徐立表示将引领行业迈向通用人工智能时代。阅读详细内容 标题: 「草莓」即将上线,OpenAI新旗舰大模型曝光,代号「猎户座」摘要: OpenAI计划今年秋天推出新人工智能「草莓」,作为聊天机器人的一部分,可能集成在ChatGPT内。「草莓」能解决未见过的数学和编程问题,并不限于技术问题。同时,OpenAI正在开发新旗舰LLM「Orion」,旨在改进GPT-4。而「草莓」旨在改进「Orion」,可生成高质量训练数据,减少模型错误。OpenAI已向安全监管人员展示「草莓」模型,努力提高透明度。未来,ChatGPT用户或可根据时间敏感程度开启或关闭「草莓」。阅读详细内容 标题: 识别精度高达76.32%,浙大、之江团队用深度学习加速大规模药物发现和再利用摘要: 浙江大学、之江实验室和斯坦福大学的研究人员开发了一种名为MitoReID的深度学习模型,该模型通过分析线粒体表型变化来识别药物的作用机制(MOA)。研究人员建立了包含570,096张细胞单细胞图像的数据集,这些细胞暴露于1,068种FDA批准的药物中,并通过时间成像监测线粒体形态和膜电位。MitoReID模型使用重新识别框架和Inflated 3D ResNet主干,提供了一种自动化且经济高效的靶标识别方法,可加速大规模药物发现和再利用。该研究成果发布在《Nature Computational Science》上(论文链接),展示了MitoReID在预测未见药物和天然化合物MOA方面的潜力,为基于细胞器表型相似性的大规模药物发现和再利用提供了新的途径。然而,该方法的性能受到数据质量、实验条件和标签注释等因素的影响,需要进一步改进和扩展。研究人员建议将药物-靶点和药物-疾病关系等更多信息整合到深度学习方法中,以提高预测准确性,并探索潜在的治疗候选药物或识别不良反应。阅读详细内容 标题: 估值160亿,上海AI芯片独角兽冲刺IPO,腾讯是大股东摘要: 上海AI芯片独角兽燧原科技正式启动A股IPO,估值高达160亿。该公司由腾讯等投资,其中腾讯为第一大股东,持股20%。燧原科技自2018年成立以来,已融资近70亿元人民币,主打AI领域云端算力产品研发,产品涵盖AI加速卡、智算集群等。创始人赵立东为前AMD高管,与清华电子系校友共同塑造了中国半导体产业的半壁江山。随着AI芯片国产替代关注度提升,燧原科技等初创企业开始在资本市场崭露头角。阅读详细内容 标题: 陶哲轩最新演讲:AI时代,数学研究将进入前所未有的规模摘要: 陶哲轩在IMO 2024的演讲中深入探讨了AI与数学的关系,强调AI将推动数学研究达到前所未有的规模。他讲述了机器辅助计算的传统与演变,从早期的机械计算机到现代AI工具的应用。陶哲轩认为,AI和机器学习可以处理大量数学问题,加速研究进程,并透露自己使用GPT-4和GitHub Copilot辅助数学证明。他还提到,长期以来,机器在科学计算中发挥着重要作用,而现在AI的发展为数学研究带来了新的可能性。此外,陶哲轩提及了SAT求解器和SMT求解器等工具在数学逻辑问题中的应用,尽管这些工具有局限性,但它们展示了机器在数学研究中的潜力。总之,陶哲轩的演讲展现了AI与数学结合的广阔前景。阅读详细内容 标题: 在Cerebras上的推理速度 ‣ Llama3.1-70B:每秒处理450token…摘要: Cerebras上的Llama3.1模型展现出了惊人的推理速度,其中70B版本的模型每秒能处理450个token,比GPU快20倍,而8B版本更是每秒可处理1,700个token。除此之外,其每百万个token的费用仅为60美分,是超大规模计算提供商的五分之一,且全16位精度保证了模型的完整准确性。此外,开发者还可以享受到宽松的速率限制。这一技术的推出预示着人工智能时代的新篇章,为AI探索计划提供了强有力的支持。阅读详细内容 标题: 模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert摘要: 在推荐系统领域,深度神经网络(DNNs)和图神经网络提升了协同过滤(CF)的推荐质量,但面临新用户/商品的冷启动问题。语言模型(LMs)的泛化能力被探索用于解决零样本学习场景的挑战。EasyRec框架(论文链接)通过结合LMs的语义理解能力和CF的协同信号,旨在提高零样本场景下的推荐性能,实现更灵活、适应性强的推荐系统。它利用文本画像和多层双向Transformer架构(如BERT)来生成用户和商品的语义表示,通过余弦相似度计算交互概率,最终生成个性化推荐。该方法有效保留协同信息,快速适应动态场景,优化了推荐系统的性能。阅读详细内容 标题: GenAI投入初现回报,谷歌全球调查:86%的企业实现6%的收入增长摘要: 要点提炼: 企业对AI的需求是将智能化工具转化为生产力。科技巨头发现企业用户市场的潜力,如企业版ChatGPT用户量激增。GenAI正被企业用于降本增效,但具体部署情况和生产力提升程度尚不明确。谷歌调查显示,使用GenAI的企业74%在一年内获得投资回报,86%的受访者收入增长6%以上。GenAI主要从四个维度提升企业效益:生产力、业务增长、用户体验和企业安全。然而,员工对AI的使用存在压力与不满,企业需要关注员工培训与参与,以平衡企业与员工需求,促进共同创造和生产力提升。阅读详细内容 标题: AI在用 |「国乒喜剧人」许昕搞的Logo火了,我用AI整了个摘要: 文章提到AI在Logo设计领域的应用,如design.com、标小智等AI工具可快速生成创意Logo,助力设计师。同时,介绍了其他Logo生成器,如Logo Diffusion和canva,提供多样化设计选项。阅读详细内容 标题: Llama-3不算真开源:今年10月,权威定义就要来了摘要: 开源AI定义引发热议,OSI提出“四项基本自由”草案。此草案要求AI模型提供源代码、权重和训练数据详情,但无需公开原始数据。新定义可能影响模型发布形式及法规制定,推动大模型技术创新。阅读详细内容 标题: KDD2024重磅奖项出炉:“最大奖项”创新奖花落加州大学Lise Getoor,李骏东摘得新星奖摘要: KDD 2024全球顶级学术会议在巴塞罗那公布多个重磅奖项,包括创新奖、新星奖、时间检验奖等。创新奖由加州大学圣克鲁斯分校的Lise Getoor教授(学者主页)获得,新星奖则由弗吉尼亚大学的李骏东助理教授(学者主页)摘得。同时,来自石溪大学、微软亚洲研究院等团队的科研成果也获得表彰。KDD是数据挖掘领域最重要的会议之一,今年为第30届,吸引了全球顶尖研究者和学者的关注。阅读详细内容 标题:The theory of LLMs|朱泽园ICML演讲整理摘要:近日现Meta的AI科学家,原微软研究院首席研究员的朱泽园 Allen-Zhu在ICML会议上关于Physics of Language Models的Tutorial获得了一众好评,引起了广泛的关注。我们认为该报告内容十分重要(原版视频:https://www.youtube.com/watch?v=yBL7J0kgldU),能够帮助学界产业界的各位对于大模型有更清晰的理解,因此翻译梳理成了中文,供大家阅读。现如今的大模型的参数量动辄成百上千亿,可谓是十分庞大的多体系统,很难以从底层的数学,统计学原理去理解清楚其内部的演化。然而在这场目标奔赴通用人工智能的史诗的征程中,我们需要建立对于大模型的一些底层认知来作为灯塔指引前进的方向。Scaling Law让我们认识到扩大模型,数据规模的重要性,但在如今AI头部公司们纷纷开始有能力创造出接近或达到GPT4能力的大模型的时候,我们也清楚地感受到为了更进一步,还需要更多的探索。基于一些合理的假设,以及实际观察到的现象,我们可以像研究自然的物理学一般去试图探索大模型的现象学理论。这种视角的研究被称为Physics of LLMs,或许会给我们建立许多重要的关于大模型的底层认知。阅读详细内容

2024-8-28 7:4

AI大模型早报#0828:字节组建大模型研究院、智谱首推免费大模型API

导读:字节跳动正积极组建大模型研究院,招揽零一万物联创黄文灏等外部人才以加强自研能力,并推出了多个AI对话产品。同时,智谱等公司推出了新一代大模型GLM-4-Flash的免费API,主打轻量化和快速响应。阿里夸克正尝试通过全面升级AI功能,来实现突破性用户体验。此外,复旦大学提出了首个基于扩散模型的视频非限制性对抗攻击框架,显示了AI在安全领域的新挑战。分子大模型Uni-Mol+的升级则加速了量子化学属性预测,提升了计算材料和药物设计的效率。还需要关注的是,Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争,突显了开源大模型在商业化过程中的困难。最后,我们将向您推荐Sebastian Raschka教授颇受关注的书籍《从零构建大模型》。标题: 字节成立大模型研究院,疯狂氪金 AI 人才摘要: 字节跳动正在秘密筹备大模型研究院,积极招揽人才,已有外部AI专家加入,直接向张一鸣汇报。字节自研的大模型“云雀”及AI对话产品“豆包”已上线,另一产品Coze也推出海外版及国内版“扣子”,旨在快速创建AI聊天机器人。过去,字节大模型团队的人才主要来自内部业务线,如今则从外部招揽人才,如黄文灏博士,他在Deep Learning领域有丰富经验,并在微软亚洲研究院、智源研究院等机构工作过,之前是零一万物联创,现加入字节负责大模型相关工作。阅读详细内容 标题: 真香!智谱大模型,有了首个免费的API摘要: 大模型API进入Flash时代,国内外推出多款轻量级、高响应速度的大模型。智谱推出GLM-4-Flash(进入体验地址),支持128K长上下文推理,每秒生成115个字符。模型已免费开放,并推出微调功能,助力开发者快速构建个性化应用。GLM-4-Flash在实际应用中表现出色,可用于科研、翻译、内容创作等领域,推动AI技术大规模应用。阅读详细内容 标题: 夸克持续焕新用户体验 阿里“AI驱动”战略迸发无限可能摘要: 8月27日,阿里智能信息事业群旗下夸克发布全新PC端,全面升级AI搜索、AI写作、AI PPT、AI文件总结等功能,通过“系统级全场景AI”能力,让电脑秒变AI电脑。该升级大幅提升用户使用搜索、写作等功能的效率,实现突破性用户体验,创新践行“AI驱动”战略。夸克自升级AI搜索以来,市场表现强劲,6月高考季AI搜索使用量超1亿次,且在《2024年第二季度iOS实力AI产品排行榜》中位居榜首。未来,夸克将继续保持快速迭代,为用户创新一站式、多端一体的AI服务。阅读详细内容 标题: LLM取代的第一个编程语言竟是SQL?网友吵翻天摘要: AI是否将取代SQL的争论持续升温。Abacus.AI的CEO Bindu Reddy声称LLM已能以超95%的准确率生成SQL代码,超越人类程序员的平均水平,并展示了AI工具的实力。然而,此言论引发质疑,有网友和专业人士指出实际体验与Bindu所言不符,AI生成的SQL代码常需大量修改,且在复杂查询中表现不佳。现有数据显示,最先进的模型在Text-To-SQL任务中的准确率远低于95%。尽管AI在编程领域的影响力不断上升,但其在数据处理和查询分析方面仍需专业工具的辅助。因此,AI完全取代SQL的说法尚待验证。阅读详细内容 标题: ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它摘要: 复旦大学团队提出了面向视频模型的对抗攻击方法ReToMe-VA(论文链接),采用扩散模型与逐时间步优化策略,实现空间不可感知性,并引入递归token合并策略提升迁移性和时序一致性。该方法针对深度神经网络(DNNs)的鲁棒性挑战,通过非限制性对抗攻击,生成更自然的对抗样本,有效应对安全威胁。实验显示,ReToMe-VA在白盒和黑盒攻击中均优于现有方法,且在多种防御方法上表现出鲁棒性。阅读详细内容 标题: 分子大模型升级,Uni-Mol+加速量子化学属性预测,深势科技、北大研究登Nature子刊摘要: 深势科技推出的Uni-Mol是一款强大的分子三维结构通用大模型,其升级版Uni-Mol+通过增加参数量、预训练数据量以及优化模型架构,实现了更高的预测精度和通用性。Uni-Mol+采用深度学习方法,利用3D构象精确预测量子化学属性,有效提升了计算材料和药物设计的效率。该模型在PCQM4MV2和Open Catalyst 2020基准测试中超越现有解决方案,证明了其在复杂材料系统相互作用捕捉及计算材料科学任务中的广泛应用潜力。此外,全面的消融研究进一步验证了模型设计和训练策略的有效性。相关研究(论文链接)已在《Nature Communications》发表。阅读详细内容 标题: Llama3.1根本卖不动!业内人士:开源模型成本反而更高摘要: Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争。据报道,AWS的企业客户更倾向使用闭源模型Claude,而微软也更愿推介Llama给有数据专业知识的公司。这突显了开源大模型在商业化过程中的困难,其实际效果和商业回报未能满足企业预期。百度智能云的忻舟认为,开源模型因未开放关键信息,无法像开源软件一样靠社区提升效果,且因缺乏商业模式而难以持续迭代。此外,开源模型的总成本可能更高,因其需额外投入以达到闭源模型效果。忻舟表示,闭源模型在硬件成本、业务收益等方面具优势,更适合大型商业项目,而开源模型则适用于学术研究和特定场景。阅读详细内容 标题: 会议 | 大模型时代,绿色计算这条路该怎么走?摘要: 要点提炼: 随着人工智能大模型的发展,智能算力需求急剧上升,带来能耗和成本挑战。为实现可持续发展,构建绿色低碳、高经济性、高质量的大规模智算基础设施成为行业热点。2024年外滩大会期间(9月4日下午),蚂蚁集团等将主办“绿色计算:大规模智能算力时代可持续发展之路”闭门会,探讨建立绿色高效、软硬协同的算力基础设施,平衡智能发展与双碳目标。会议定向邀约业界专家,共议未来绿色计算解决路径。阅读详细内容 标题:教程 | 神书《从零构建大模型》分享,尚未发布,GitHub标星22k《从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教 Sebastian Raschka教授。在本书中,读者将从内到外了解 LLM 的工作原理。在这本富有洞察力的书中,作者将指导读者逐步创建自己的 LLM,并用清晰的文本、图表和示例解释每个阶段。读者将从最初的设计和创建到在通用语料库上进行预训练,再到针对特定任务进行微调。本书GitHub本书网页阅读