HomeAI大模型每日早报
AI大模型每日早报

AI大模型每日早报

@常政

每天上班前5分钟,一文览尽AI大模型最新资讯!
订阅16
文章109
最后更新:2024-9-5 7:55
查看 【AI大模型每日早报】 详情查看 【常政】 主页
分享到微信打开

免费内容

2025-1-27 8:6

AI大模型早报#0127:特朗普官宣AI新政策、全球掀起DeepSeek复现狂潮

导读:今日头条是白宫官宣的特朗普新命令,旨在消除一切不利于AI发展的障碍。该命令撤销了阻碍AI创新的政策和指令,为美国保持AI领域的全球领先地位铺平道路。此举不仅体现了美国对AI发展的高度重视,还将在政策层面上为OpenAI等大项目提供强有力支持,对全球AI行业的格局和发展趋势产生深远影响。其次,全球掀起的DeepSeek复现狂潮也值得关注。该模型以低成本芯片训练出突破性AI,可能动摇OpenAI、Meta等公司的技术优势及高估值。此外,上海人工智能实验室、北京生命组学研究所和复旦大学团队联合研发的肽段测序模型π-PrimeNovo,显著提高了肽段测序的准确性和推理速度,这一成果标志着肽段测序技术的重大进展,有望在生物医学研究领域发挥重要作用。【前沿动态】白宫官宣!特朗普新命令,消除一切不利AI发展的障碍!摘要: 白宫宣布,特朗普发布新行政命令,旨在消除美国在AI领域领导地位的障碍。该命令撤销了之前阻碍AI创新的政策和指令,为美国在AI方面保持全球领先地位铺平道路。此举意在在政策层面上为OpenAI等大项目提供支持。命令包括撤销不利于AI发展的条款,制定AI行动计划,审查并调整与先前AI监管命令不符的政策,以确保美国的AI发展不受限制。此举显示美国决心大力发展AI并保持其在该领域的全球领导权。阅读详细内容 【模型训练】全球掀起DeepSeek复现狂潮,一文汇总!摘要: 全球掀起复现DeepSeek的热潮,该模型以低成本芯片训练出突破性AI,可能动摇OpenAI、Meta等公司的技术优势及高估值。DeepSeek将超强性能模型从算力巨头释放给每个人。HuggingFace团队已复刻DeepSeek并开源所有训练数据和脚本。此外,伯克利和港科大的团队也以极低成本成功复刻了DeepSeek,显示出该模型的广泛适用性和潜力,可能对AI行业产生深远影响。阅读详细内容【前沿动态】推理速度提升89倍!肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用摘要:上海人工智能实验室、北京生命组学研究所和复旦大学团队联合研发了一种基于非自回归transformer的肽段测序模型π-PrimeNovo。该模型解决了传统自回归模型存在的错误累积和推理速度慢的问题,通过双向信息集成和并发生成过程,显著提高了肽段测序的准确性和推理速度。在九物种基准测试集上,PrimeNovo的平均肽段召回率显著提升,达到64%,比先前的领先模型Casanovo V2提高了10%。此外,该模型在推理速度方面也有显著优势,比Casanovo V2快至89倍,特别适合大规模应用,如宏蛋白质组学。PrimeNovo还展现出在挖掘磷酸化肽和检测低丰度翻译后修饰方面的出色表现,标志着肽段测序技术的重大进展。阅读详细内容 【前沿动态】接棒DeepSeek!阿里千问宣布开源百万Token上下文模型:主打闪电般的推理「附送详细技术报告」摘要: 阿里通义千问团队宣布推出最新开源模型Qwen2.5-1M,该模型能够原生支持百万Token上下文长度,轻松处理超长文档、进行深度对话以及理解复杂任务。此外,团队还开源了基于vLLM的推理框架,集成稀疏注意力机制,使模型在处理百万Token输入时速度提升3-7倍。用户可通过技术报告深入了解模型细节,并在通义千问Chat平台、Hugging Face和Modelscope上体验或获取模型。这一创新提升了AI在实际应用场景的效率和体验。阅读详细内容 【行业落地】刷新AR/AI眼镜众筹纪录,CES上爆火的Halliday做对了什么?摘要: 1月25日,全球最大众筹网站Kickstarter上,AI眼镜品牌Halliday在72小时内募集超137万美元,创造AR/AI眼镜项目众筹新纪录。该眼镜在2025年CES上首度亮相,以35克的超轻重量、12小时长续航、时尚设计和创新的AI体验脱颖而出,受到微软、Meta、谷歌等科技巨头关注。其成功背后源于对用户需求的深刻洞察和与Gyges Labs的技术合作。Halliday重新定义了AI眼镜,注重日常佩戴舒适性和AI功能的隐秘性,为行业带来全新产品创新范式。阅读详细内容 【前沿动态】字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!摘要: 科技巨头OpenAI发布了智能体Operator,标志着AI智能体时代的到来。同时,字节跳动豆包大模型团队也公布了开源智能体UI-TARS,其名字来源于电影《星际穿越》的TARS机器人,预示高度智能和自主思考能力。UI-TARS不仅能控制浏览器和执行推理,还能操作显示在屏幕上的任何内容,包括手机和电脑。与Midscene.js结合,UI-TARS可支持目标驱动、兼容画布操作等,提升执行效率。此外,UI-TARS在权威基准测试中表现出色,未来有望在GUI智能体领域发挥重要作用,推动智能体时代的发展。阅读详细内容  【前沿动态】MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图摘要: Meta Reality Labs和伊利诺伊大学厄巴纳-香槟分校联合推出的MV-DUSt3R+,一种全新的3D场景重建技术。该技术能在2秒内从稀疏视图中快速重建复杂三维场景,通过多视图解码器块和交叉视图注意力块机制,实现了高效、准确且灵活的三维重建,无需相机校准和姿态估计,可处理任意数量视图。研究团队包括Meta高级科研研究员严志程和伊利诺伊大学博士生唐正纲等。实验结果显示,MV-DUSt3R+在效率和质量上显著优于传统方法,为实时三维场景重建在混合现实等领域的应用铺平了道路。阅读详细内容  【前沿动态】TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview摘要: 中国电信人工智能研究院近日发布了复杂推理大模型TeleAI-t1-preview,该模型使用强化学习训练方法,大幅提升了在数学推导、逻辑推理等复杂问题的准确性。在权威数学基准评测中,其表现超越了OpenAI和GPT等标杆模型。TeleAI-t1-preview不仅能给出答案,还能完整呈现思考和分析过程,有助于学生深入理解题目逻辑。此外,该模型还能理解和解答古代数学经典著作中的题目。TeleAI采用了创新的训练策略,包括构建高质量推理数据集、训练评估模型、监督微调和强化学习等,以提高模型的逻辑推理能力和可解释性。阅读详细内容 【前沿动态】DeepSeek-R1持续刷屏,连Open R1都来了!抱抱脸发起,1天狂揽1.9k星摘要: 科技巨头HuggingFace发起Open R1项目,旨在复制并开源国产大模型DeepSeek-R1,包括其训练数据和脚本。该项目短短1天内在GitHub上获得1.9k标星,引发全球大模型圈震撼。HuggingFace计划分三步完成该项目:首先复制DeepSeek的蒸馏版模型,其次复制其纯强化学习pipeline,并通过多阶段训练过渡到RL版本。同时,OpenAI也坐不住了,剧透将推出o3-mini智能体给Plus会员。DeepSeek的开源力量正在搅动全球AI界。阅读详细内容 【模型训练】全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻摘要:近日,DeepSeek引起全球关注,UC伯克利、港科大等纷纷成功复现。该模型以极低成本训练出突破性AI,可能威胁美国AI霸权。DeepSeek表明,大模型比拼的不再是算力,而是开源与创新。研究人员在CountDown游戏中复现了DeepSeek R1-Zero,成本不到30美金,见证了「啊哈」时刻。他们通过强化学习,使基础语言模型能够自我验证和搜索。此外,港科大团队仅用8K样本在7B模型上复刻DeepSeek,取得令人惊喜的数学推理结果。这一系列成果显示,超强性能模型不再独属于算力巨头,开源与创新正引领AI进入新的分水岭。阅读详细内容 【前沿动态】Nat. Commun. | 中南大学研究团队提出基于电子构型的堆叠模型,推动新材料稳定性可靠预测摘要: 中南大学王建新教授团队提出了一种基于电子构型的机器学习框架,通过堆叠泛化集成不同领域知识的模型,准确预测化合物的热力学稳定性。该模型在实验中取得了0.988的AUC分数,且样本利用效率极高,仅需现有模型所用数据的七分之一。研究还展示了该框架在探索未知化学成分空间及发掘新材料方面的潜力,如二维宽带隙半导体和双钙钛矿氧化物。通过第一性原理计算验证,该方法在识别稳定化合物方面表现出色,为材料设计领域的研究提供了有力支持。阅读详细内容 【人物观点】NBC火爆专题: DeepSeek超越美国的AI突破,和PerPlexity创始人讨论摘要: 美国媒体关注中国AI公司DeepSeek的R1模型,该模型在发布后迅速引起关注,被认为可能威胁美国AI领域的主导地位。DeepSeek的开源模型在多项测试中超越市场现有模型,且研发成本低、耗时短。尽管受美国半导体限制,DeepSeek仍利用较低性能芯片实现了突破。DeepSeek的神秘背景和快速赶超引发行业对AI竞争格局的关注,挑战了OpenAI等公司的领先地位。阅读详细内容  

2024-9-25 8:3

AI大模型早报#0925:OpenAI开放ChatGPT高级语音模式、英伟达开源NVLM 1.0屠榜多模态

导读:今天凌晨,OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式,支持50多种语言和中文模式,增强了交互性和应用场景。英伟达研究团队推出了多模态大型语言模型NVLM 1.0,在视觉-语言任务上取得了显著成果,并强调了训练数据质量和多样性的重要性。 伯克利MemGPT团队创立了AI初创公司Letta,获得了Jeff Dean等知名天使投资人的支持,其技术有望改变AI行业。字节跳动发布了两个视频生成大模型,提升了审美和动幅,解决了多主体互动和一致性问题。潞晨科技尤洋在专访中表示,已在AI基础设施领域取得了显著进展,发布了开源视频生成模型Open-Sora,并重视开源社区建设。在蛋白质设计领域,上海交大洪亮团队提出了低成本、全自动的CPDiffusion模型,能高效设计功能型蛋白质。武汉纺织大学团队发布了首个多缝线刺绣生成对抗网络模型,为刺绣艺术的数字化创新提供了新工具。此外,CAIS发布了新基准,悬赏50万美元挑战AI极限,旨在推动AI模型的发展。 在社交领域,一款名为SocialAI的新应用允许用户与AI机器人互动,模拟社交网络体验,满足用户的社交需求。AI绘图方面,南开大学团队在OPENAIGC开发者大赛中获奖,其项目简化了AI绘图流程,提升了用户体验。瓴羊智能科技强调AI与业务场景的融合,推出了覆盖数据治理到业务应用全周期的产品矩阵。在气候预测方面,IBM与NASA合作发布了通用AI模型Prithvi WxC,可用于天气和气候预测,具有多项挑战性任务上的优异表现。上交大和复旦中山医院团队开发的糖尿病专用大模型Diabetica,为糖尿病患者提供了个性化医疗支持。 最后,法国初创团队Kyutai开源了实时语音模型Moshi,实现了全双工口语对话,突破了传统AI对话模型的限制。【前沿动态】刚刚,OpenAI开放ChatGPT高级语音模式,会50多种语言!摘要: OpenAI向所有ChatGPT Plus和Team用户开放了高级语音模式,新增自定义指令、语音记忆存储、5种新声音、语速以及50多种语音,支持中文模式。用户可以用自然语音与ChatGPT交互,并随时打断它。语音模式可扩大其应用场景,如教育、法律、商务、医疗等领域。此举兑现了OpenAI的承诺,让用户体验更加丰富多彩。阅读详细内容 【前沿动态】英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升摘要: 英伟达研究团队推出了NVLM 1.0系列多模态大型语言模型,该模型在视觉-语言任务上取得了与GPT-4o等领先的闭源和开源模型相媲美的成果。NVLM 1.0在纯文本性能上甚至超过了所采用的LLM主干模型,尤其是在文本数学和编码任务上表现优异。研究团队提出了一种全新架构,结合了纯解码器和基于交叉注意力的模型优势,并引入了1-D图块标签设计,显著提高了多模态推理和OCR相关任务的性能。此外,研究还强调了训练数据的质量和多样性对模型性能的重要性,并通过精心整合高质量的纯文本数据集,辅以多模态数学和推理数据,进一步提升了模型在各模态上的能力。NVLM 1.0提供了三种可选架构,包括仅解码器的NVLM-D、基于交叉注意力的NVLM-X和混合架构的NVLM-H,以适应不同的应用场景。阅读详细内容 【市场融资】伯克利MemGPT团队创业,要做开源的OpenAI,Jeff Dean也投了摘要: Letta,一家由伯克利博士生创立的AI初创公司,通过提供让AI模型记忆用户和对话的技术,有望彻底改变人工智能行业。该公司获得了由Felicis领投的1000万美元种子资金,并得到了Jeff Dean等知名天使投资人的支持。其技术MemGPT,旨在解决大语言模型无状态的问题,让AI应用能随时间了解和学习用户。Letta计划通过其托管代理服务Letta Cloud,允许开发人员在云平台上部署运行有状态智能体,并提供构建AI智能体的工具。尽管面临LangChain和OpenAI的竞争,但Letta坚持开源立场,定位为OpenAI的开放替代品,助力构建更好的AI应用。阅读详细内容 【前沿动态】字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点摘要: 字节跳动于9月24日发布了两个视频生成大模型——PixelDance和Seaweed,这两款模型在审美和动幅上有所提升,并解决了多主体互动和一致性问题。新款豆包视频生成模型正在内测,可遵循复杂指令、捕捉多动作序列和主体互动,采用全新训练方法解决了多镜头切换的一致性问题。该模型支持多种风格,可生成具有高级审美和丰富细节的视频,适用于广告等多场景。实测显示,模型在人物动作、表情、镜头语言等方面表现优异,未来将逐步开放给所有用户。阅读详细内容 【人物观点】潞晨科技尤洋:300 亿市值的野心之上,我在做哪些选择?摘要: 尤洋,一位在高性能计算领域备受瞩目的博士毕业生,创立了AI基础设施创业公司潞晨科技,并在短短三年内实现了估值增长40倍。潞晨科技致力于满足AI时代对基础设施的需求,重点布局视频大模型和训推一体机,旨在提升推理能力。公司还自研并发布了全球首个开源类Sora架构视频生成模型Open-Sora,显示其在模型能力上的深化。尤洋强调,AI基础设施公司的长期壁垒在于生态,潞晨科技重视开源社区建设,拥有4万到10万深度使用其产品的开发者。公司定位清晰,旨在实现200亿到300亿市值,并达到20亿收入。此外,潞晨科技与云厂商无竞争关系,重心在于与大模型公司合作,聚焦微调领域。阅读详细内容 【前沿动态】权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质摘要: 蛋白质是生命活动的核心,其设计效率的提升对科学研究和应用至关重要。近年来,深度学习在蛋白质设计中的应用逐渐增多,但仍面临数据量大、模型复杂和蛋白活性低等问题。上海交通大学洪亮课题组研发的CPDiffusion模型,通过结合蛋白质骨架、活性位点等条件,能低成本、高效地学习蛋白质的序列、结构与功能关系,并生成多样化、高活性的新型蛋白质。该模型自动识别保守区,提高序列多样性,且无需专家指导。通过该模型设计的新型内切核酸酶KmAgo、PfAgo,DNA剪切活性提升10倍以上,为蛋白质工程研究开启了新篇章。此外,该模型还扩展了蛋白质数据库,为科学家提供了丰富资源。该研究成果已发表于Cell Discovery,数据集和工具也已开源共享。阅读详细内容 【前沿动态】可智能生成刺绣图案!武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型,被顶级期刊TVCG录用摘要: 武汉纺织大学计算机与人工智能学院的研究团队发布了首个多缝线刺绣生成对抗网络模型MSEmbGAN,并创建了当前最大的刺绣数据集。该模型通过提高纹理真实度和色彩保真度等关键方面的精度,成功合成了包含多种缝线纹理和色彩的多针刺绣图像。研究亮点包括两个协作的子网络,一个确保刺绣纹理多样性,另一个保持颜色一致性。该研究成果优于目前最先进的刺绣合成和风格转换方法,为刺绣艺术的数字化创新提供了新的工具和技术支持。相关论文已被顶级期刊TVCG录用,并开源了包含30K+图像的多针刺绣数据集。阅读详细内容 【前沿动态】抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题摘要: 随着AI模型性能的不断提升,现有的基准测试已无法满足评估需求。为此,CAIS与Scale AI合作,推出名为“Humanity's Last Exam”的新基准,旨在收集最顶尖人类专家才能回答的问题,以挑战AI极限。该基准筹集50万美元,用于奖励提出优秀问题的人,问题范围不限,难度要求极高。提交的问题需要经过AI评估、答案解释、同行评审等步骤,最终入选者将成为论文合作者。此举旨在推动AI模型的发展,并鼓励专家参与挑战。问题提交截止日期为2024年11月1日。阅读详细内容 【行业落地】这个「微博」,几万个 AI 和你互动,成就你的「大 V 梦」摘要: 一款名为SocialAI的新应用允许用户与AI机器人互动,模拟成为社交网络中的大V。用户可以定制个性化的AI粉丝和喷子,为推文点赞、评论,满足网络社交需求。该应用旨在帮助用户感受到被倾听,提供一个像紧密社区一样进行反思、支持和反馈的空间。创始人Michael Sayman认为,许多社交媒体公司的结构和激励措施不利于用户福祉,而SocialAI旨在以真实、切实的方式帮助人们。该应用依靠OpenAI的API提供技术支持,Sayman希望通过这种方式刺激用户对于问题的不同思考。阅读详细内容 【行业落地】AI绘图智能体 丨 OPENAIGC开发者大赛高校组AI创新之星奖摘要: 在第二届拯救者杯OPENAIGC开发者大赛中,南开大学山海绘卷团队的“AI绘图智能体”项目获高校组AI创新之星奖。该项目通过LangChain框架和向量知识库简化了AI绘图流程,提供功能推荐、可视化调用和智能批量化操作,降低了使用门槛,提升了用户体验和效率。其核心技术包括Agent智能框架的搭建、ComfyUi的高度集成与Prompt工程,实现了高效、易用和高质量的AI绘图解决方案。未来规划构建新的Agent自动更新Ai绘图模型与技术,并搭建自我学习演化的Agent,自己迭代更新,制作效果更好的工作流。阅读详细内容 【行业落地】解码瓴羊:一群最懂数据的人如何让AI真正无处不在?摘要: 科技记者提炼要点: 瓴羊智能科技在2024云栖大会上强调,AI技术的成功应用在于与具体业务场景的深度融合。公司推出了五大产品矩阵,覆盖数据治理到业务应用全周期,特别聚焦于分析、营销和客服三大领域,通过AI大模型提升效率和用户体验。其Quick BI工具实现了智能化数据分析,降低了技术门槛;Quick Audience助力精准营销,提高转化率;Quick Service 2.0优化智能客服,提升解答准确率并缩短响应时间。此外,瓴羊还通过Dataphin加强数据治理,推出DataAgent构建智能数据资产目录。瓴羊的实践表明,AI与场景的紧密结合是推动企业数字化转型的关键。阅读详细内容 【前沿动态】23亿参数,Transformer架构,NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC摘要: IBM与NASA合作发布了新型通用AI模型Prithvi WxC,用于天气和气候预测。该模型具有23亿参数,使用MERRA-2数据集的160个变量开发,采用创新的Transformer架构。Prithvi WxC在多项挑战性任务上测试成功,包括自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。模型可解决多种应用,如根据当地天气数据创建预报、预测极端天气事件等。该模型开源,可在台式计算机上运行,潜在地提高全球气候模拟分辨率和传统模型中物理过程的表示。此外,IBM发布了降尺度模型,可放大低分辨率数据获取更多细节,用于提供极端事件的早期预警。该模型还准确重建了飓风轨迹,并改进了重力波估计。IBM与加拿大气象机构合作,定制降水预报模型。Prithvi WxC的灵活性归功于其混合架构和训练方案,能够像传统模型一样在球体上运行,也可在平坦表面运行。训练过程中,模型学会了拼凑不完整的天气数据并预测未来状态,减少了所需数据量和能耗。阅读详细内容 【前沿动态】上交大、复旦中山团队开发糖尿病专用大语言模型,助力个性化糖尿病管理摘要: 上海交通大学清源研究院与复旦大学附属中山医院的研究团队开发出一款名为Diabetica的糖尿病专用大模型。该模型通过处理大量医疗数据,为糖尿病患者提供个性化医疗支持,并为医生提供高效的医学教育和临床辅助工具。Diabetica能够应对全球糖尿病管理挑战,包括专业医师短缺、医疗资源分配不均和患者自我管理能力不足等问题。该模型展现出了在自然语言理解、医学咨询和医学教育方面的强大能力,为糖尿病管理带来了新的机遇。阅读详细内容 【前沿动态】开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开摘要: 法国初创团队Kyutai开源了实时语音模型Moshi,该模型以自然聊天、情绪丰富为特点,对标GPT-4o。Moshi由先进的流式神经音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分组成。模型在本地运行对显存有一定要求,但提供了多种版本以适应不同需求。Moshi突破了传统AI对话模型的限制,通过联合建模文本和音频,实现了全双工口语对话,支持任意动态的自然对话。该模型还在训练中引入了“内心独白”方法,显著提高了生成语音的质量。研究人员在庞大的公共英语数据上进行了预训练,确保模型的语言能力和推理能力。Moshi的开源为AI语音领域带来了创新,展示了未来语音交互的新可能性。阅读详细内容