你好，我是P小二。

专栏是关于AIGC方向的论文解读，技术研究，案例分析和落地经验分享，最近在更mlsys系列了。

目前成为永久读者价格：365元

本人AIGC相关其他内容：
- AIGC newsletter(最新论文，创业思考，AIGC周刊）： https://newsletter.aigc.news/
- 小红书：AIGC探索之旅
- AI News： https://live.aigc.news/

加读者微信群：pxiaoer2025

2022-11-03 00:28

免费

【论文解读】02. LAION-5B：训练下一代图文模型的大规模开放数据集

背景： LAION数据集是什么数据集LAION是一个在德国的非盈利性组织，主要从事大规模机器学习和数据管理研究，会公布一些开放的数据集，代码和机器学习模型。他们接受了Stability，Hugging face，Doodlebot等公司和一些实验室的资助。LAION数据集是指LAION发布的以LAION开头命名的数据集，主要是图像-文本数据集包括了:LAION-400MLAION5BLAION-cocoLAION translatedLAION5B High-ResLAION AestheticsLAION-3DLAION-400M和LAION5B 可以用于训练：生成模型：图像-文本生成模型，包括DALL-E这种自回归模型，GLIDE和Stable Diffusion这种扩散模型使用contrastive losses的模型：像CLIP分类模型： zero-shot 分类模型LAION-5B：训练下一代图文模型的大规模开放数据集标题： LAION-5B: An open large-scale dataset for training next generation image-text models单位： laion.ai团队链接： https://arxiv.org/abs/2210.06423代码：无代码LAION-5B是一个5850亿对的图文数据，包括了2320亿对英文，2260亿对其他100种语言和127亿没有检测到语言的数据。可以点击下面的链接访问这个数据集，官方提供了搜索。clip-retrieval： https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn5.laion.ai&index=laion5B&useMclip=false这个数据集包括下面的数据：所有5850亿对图像的URL和元数据一个KNN的索引，主要是支持在这个1.6TB大小的数据集快速搜索一个Clip Vi-L/14 的图像embeddings (9TB)一个基于这个数据集的图文检索demo，就是上面的clip-retrieval基于这个数据集的安全标签（50GB)这个数据集有水印的标记（50GB）图像对有以下数据：网址: 图片网址，覆盖了数百万个域名文字说明，英文为 en，其他语言为 multi 和 nolang宽度: 图片宽度高度: 图片高度语言: 使用 cld3计算相似性: 文本和图像之间的余弦相似度水印: 基于https://github.com/LAION-AI/LAION-5B-WatermarkDetection模型检测的水印概率不安全度：基于https://github.com/LAION-AI/CLIP-based-NSFW-Detector模型检测的不安全度概率图像抓取开发团队的工作流程如上图，开始是分布式爬虫，然后下载图片文字对，然后对内容进行分析处理，最后存储。图像分别来自数百万个域名，然后用CLIP对图像文本对进行推理，计算图像和文本的相似度，相似度评分低的会删除，这个阈值英文为0.28，其他为0.26。除了删除相似度低的图像文本对外，还会对一些不符合要求的图文对进行删除，包括了：图像过小或过大，文本太小或太长图像重复一些非法内容下面是所有数据集的样本统计：英文样本统计多语言样本无语言样本特殊处理水印问题水印的图像是一个很大的问题，有人已经发现了生成的图像中会存在水印的情况。虽然开发团队已经处理了大部分的水印。他们是用了9万个样本，45222个水印和44778个没有水印，训练了一个识别水印的模型来识别了所有的图片，有水印会被丢弃。但是有水印和无水印其实也存在模糊，比如底部有小透明文字的图片被一些人认为是水印，而另一些人则不这么认为，所以生成的图像是有可能有水印的。水印模型已经开源了，链接：https://github.com/LAION-AI/watermark-detectionNSFW图像处理NSFW是Not Safe For Work的缩写，主要指成人图像等不合适的内容。开发团队也训练了一个模型来识别这些内容，然后把识别到的图像都删除了。训练集有3000个样本，分类器准确率为0.96。模型和代码也开源了，链接： CLIP-based-NSFW-Detector图像版权问题论文中，有一个大家比较关心的点没有被提到，那就是来自这数百万个域名的5850亿个图像的版权是怎么样的。可以肯定的是，开发者们使用爬虫爬取这些图像和后期处理时都没有考虑过版权。很多创作者也通过公开的搜索工具搜到了自己的作品，作品被用来训练，这也给创作者们带来了一些被取代焦虑。关于版权这个话题，后面一直会有争论，就看开发者们和创作者们怎么博弈了。就目前的数据集处理流程来讲，如果自己的作品不想被用来训练，只能在公布的时候打上水印，但这又是创作者们不想看到的。参考资源：https://arxiv.org/abs/2210.06423https://laion.ai/blog/laion-5b/

文章预览

阅读全文

AIGC探索之旅

免费内容

【mlsys系列预告】大模型时代，为什么必须懂 MLSys？

【复现ChatGPT】0. 总目录

【复现ChatGPT】复现ChatGPT的意义

【论文解读】02. LAION-5B：训练下一代图文模型的大规模开放数据集

小报童导航

AIGC探索之旅

免费内容

【mlsys系列预告】大模型时代，为什么必须懂 MLSys？

【复现ChatGPT】0. 总目录

【复现ChatGPT】复现ChatGPT的意义

【论文解读】02. LAION-5B： 训练下一代图文模型的大规模开放数据集

【论文解读】02. LAION-5B：训练下一代图文模型的大规模开放数据集