AI大模型早报#0828:字节组建大模型研究院、智谱首推免费大模型API

AI大模型每日早报常政2024-8-28 7:4

导读:字节跳动正积极组建大模型研究院,招揽零一万物联创黄文灏等外部人才以加强自研能力,并推出了多个AI对话产品。同时,智谱等公司推出了新一代大模型GLM-4-Flash的免费API,主打轻量化和快速响应。阿里夸克正尝试通过全面升级AI功能,来实现突破性用户体验。此外,复旦大学提出了首个基于扩散模型的视频非限制性对抗攻击框架,显示了AI在安全领域的新挑战。分子大模型Uni-Mol+的升级则加速了量子化学属性预测,提升了计算材料和药物设计的效率。还需要关注的是,Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争,突显了开源大模型在商业化过程中的困难。最后,我们将向您推荐Sebastian Raschka教授颇受关注的书籍《从零构建大模型》。

标题: 字节成立大模型研究院,疯狂氪金 AI 人才

摘要: 字节跳动正在秘密筹备大模型研究院,积极招揽人才,已有外部AI专家加入,直接向张一鸣汇报。字节自研的大模型“云雀”及AI对话产品“豆包”已上线,另一产品Coze也推出海外版及国内版“扣子”,旨在快速创建AI聊天机器人。过去,字节大模型团队的人才主要来自内部业务线,如今则从外部招揽人才,如黄文灏博士,他在Deep Learning领域有丰富经验,并在微软亚洲研究院、智源研究院等机构工作过,之前是零一万物联创,现加入字节负责大模型相关工作。阅读详细内容 

标题: 真香!智谱大模型,有了首个免费的API

摘要: 大模型API进入Flash时代,国内外推出多款轻量级、高响应速度的大模型。智谱推出GLM-4-Flash(进入体验地址),支持128K长上下文推理,每秒生成115个字符。模型已免费开放,并推出微调功能,助力开发者快速构建个性化应用。GLM-4-Flash在实际应用中表现出色,可用于科研、翻译、内容创作等领域,推动AI技术大规模应用。阅读详细内容 

标题: 夸克持续焕新用户体验 阿里“AI驱动”战略迸发无限可能

摘要: 8月27日,阿里智能信息事业群旗下夸克发布全新PC端,全面升级AI搜索、AI写作、AI PPT、AI文件总结等功能,通过“系统级全场景AI”能力,让电脑秒变AI电脑。该升级大幅提升用户使用搜索、写作等功能的效率,实现突破性用户体验,创新践行“AI驱动”战略。夸克自升级AI搜索以来,市场表现强劲,6月高考季AI搜索使用量超1亿次,且在《2024年第二季度iOS实力AI产品排行榜》中位居榜首。未来,夸克将继续保持快速迭代,为用户创新一站式、多端一体的AI服务。阅读详细内容 

标题: LLM取代的第一个编程语言竟是SQL?网友吵翻天

摘要: AI是否将取代SQL的争论持续升温。Abacus.AI的CEO Bindu Reddy声称LLM已能以超95%的准确率生成SQL代码,超越人类程序员的平均水平,并展示了AI工具的实力。然而,此言论引发质疑,有网友和专业人士指出实际体验与Bindu所言不符,AI生成的SQL代码常需大量修改,且在复杂查询中表现不佳。现有数据显示,最先进的模型在Text-To-SQL任务中的准确率远低于95%。尽管AI在编程领域的影响力不断上升,但其在数据处理和查询分析方面仍需专业工具的辅助。因此,AI完全取代SQL的说法尚待验证。阅读详细内容 

标题: ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它

摘要: 复旦大学团队提出了面向视频模型的对抗攻击方法ReToMe-VA(论文链接),采用扩散模型与逐时间步优化策略,实现空间不可感知性,并引入递归token合并策略提升迁移性和时序一致性。该方法针对深度神经网络(DNNs)的鲁棒性挑战,通过非限制性对抗攻击,生成更自然的对抗样本,有效应对安全威胁。实验显示,ReToMe-VA在白盒和黑盒攻击中均优于现有方法,且在多种防御方法上表现出鲁棒性。阅读详细内容 

标题: 分子大模型升级,Uni-Mol+加速量子化学属性预测,深势科技、北大研究登Nature子刊

摘要: 深势科技推出的Uni-Mol是一款强大的分子三维结构通用大模型,其升级版Uni-Mol+通过增加参数量、预训练数据量以及优化模型架构,实现了更高的预测精度和通用性。Uni-Mol+采用深度学习方法,利用3D构象精确预测量子化学属性,有效提升了计算材料和药物设计的效率。该模型在PCQM4MV2和Open Catalyst 2020基准测试中超越现有解决方案,证明了其在复杂材料系统相互作用捕捉及计算材料科学任务中的广泛应用潜力。此外,全面的消融研究进一步验证了模型设计和训练策略的有效性。相关研究(论文链接)已在《Nature Communications》发表。阅读详细内容 

标题: Llama3.1根本卖不动!业内人士:开源模型成本反而更高

摘要: Meta的开源大模型Llama 3面临市场冷遇,加剧了开源与闭源大模型之争。据报道,AWS的企业客户更倾向使用闭源模型Claude,而微软也更愿推介Llama给有数据专业知识的公司。这突显了开源大模型在商业化过程中的困难,其实际效果和商业回报未能满足企业预期。百度智能云的忻舟认为,开源模型因未开放关键信息,无法像开源软件一样靠社区提升效果,且因缺乏商业模式而难以持续迭代。此外,开源模型的总成本可能更高,因其需额外投入以达到闭源模型效果。忻舟表示,闭源模型在硬件成本、业务收益等方面具优势,更适合大型商业项目,而开源模型则适用于学术研究和特定场景。阅读详细内容 

标题: 会议 | 大模型时代,绿色计算这条路该怎么走?

摘要: 要点提炼: 随着人工智能大模型的发展,智能算力需求急剧上升,带来能耗和成本挑战。为实现可持续发展,构建绿色低碳、高经济性、高质量的大规模智算基础设施成为行业热点。2024年外滩大会期间(9月4日下午),蚂蚁集团等将主办“绿色计算:大规模智能算力时代可持续发展之路”闭门会,探讨建立绿色高效、软硬协同的算力基础设施,平衡智能发展与双碳目标。会议定向邀约业界专家,共议未来绿色计算解决路径。阅读详细内容 

标题:教程 | 神书《从零构建大模型》分享,尚未发布,GitHub标星22k

《从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教 Sebastian Raschka教授。在本书中,读者将从内到外了解 LLM 的工作原理。在这本富有洞察力的书中,作者将指导读者逐步创建自己的 LLM,并用清晰的文本、图表和示例解释每个阶段。读者将从最初的设计和创建到在通用语料库上进行预训练,再到针对特定任务进行微调。

本书GitHub

本书网页阅读