HomeAIGC探索之旅
AIGC探索之旅

AIGC探索之旅

@P小二

你好,我是P小二。

专栏是关于AIGC方向的论文解读,技术研究,案例分析和落地经验分享,重点在GPT和SD相关技术落地。

目前成为永久读者价格:365元

本人AIGC相关其他内容:
- AIGC newsletter(最新论文,创业思考,AIGC周刊): https://aigc.openbot.ai/
- 小红书:AIGC探索之旅
- AI News: https://ainews.kol.tool

加读者微信群:pxiaoer2025
订阅155
文章55
最后更新:2023-12-3 22:13
查看 【AIGC探索之旅】 详情查看 【P小二】 主页
分享到微信打开

免费内容

2023-3-25 7:3

【复现ChatGPT】复现ChatGPT的意义

这是本专栏AI落地专题的一个尝试,主要内容是复现ChatGPT。我会根据我的进度来更新文章,主要对象是对复现ChatGPT感兴趣的同学,非技术的同学可以忽略技术部分。为什么要写复现ChatGPT今天OpenAI发布自己的ChatGPT的插件系统,算是增强了自己作为AI领域头部公司的地位。现在作为一个又卖API又做平台的公司,OpenAI不断的在证明AGI其实不算远。前段时间百度发布的文心一言,我测试之后非常不满意,实现方法上有很大的问题,都是以前的搜索QA那一套来做的,没有任何脚踏实地的成果。 这种结果,可能发布会很快,但是质量非常差,多轮基本没有,文生图也多半是梗图。 我在即刻上下了一个结论,过不了多久百度会被甩出去很远。今年年底,质量上等同于GPT4的开源模型出来,而中文模型虽然效果肯定达不到ChatGPT,但是也会有巨大的进步。2023年,巨头开始卷多模态大模型和3D生成,中文社区则需要一个更好效果的中文ChatGPT模型。通过去复现一个ChatGPT,自己下场做技术储备,寻找更好的低成本的实现方式,也是一件可以去做的事,而且这也是避免自己焦虑的方法。我们应该怎么去复现ChatGPT第一步,成为资深使用者先把自己变成一个资深使用者,深刻认识到GPT的强大,这样你就会避免去做OpenAI已经做到的事情,而且也不会去做OpenAI懒得去做的事情。不断去测试模型,把自己变成prompt engineer,并且对GPT的很多缺点了然于胸。第二步,成为开发者熟悉OpenAI的所有API,熟读OpenAI Cookbook,了解其中的优化技巧。可以根据API开发自己的应用。除了API以外,你也需要熟悉整个LLM最新的技术,哪一些是趋势,包括熟悉整个LLM链路上的论文。熟悉围绕LLM生态建起来的第三方项目,他们解决了什么问题,使用他们去解决问题。知道哪些是OpenAI想做但是暂时没有做到的事情,什么时候可能会做到。第三步,成为创新者加强工程能力,目前是工业界领跑学术界,要做那些有价值的事情。 思考哪些事情是OpenAI很难做到的事情,未来可能会出现哪些技术,用来解决目前的问题。然后就是用你想的解决方案尝试去解决。当然,做这些是有一定门槛的。需要有一定的代码能力,也需要有阅读paper的英文水平,后面可能还需要有一定量的GPU,不过这些都可以解决。更重要的是,需要有时间来干这些事情,探索路上时间的投入成本也不算低,一起上路就快点。我们不要满足于复现ChatGPTAI相关的技术发展日新月异,ChatGPT也会过时。多想想真正的AGI是什么,我们能做什么,AI的奇点我认为还早,还有哪一些需求会被释放出来。 我们应该先做那些更有价值的事情,不要满足于复现ChatGPT。

2022-11-3 0:28

【论文解读】02. LAION-5B: 训练下一代图文模型的大规模开放数据集

背景: LAION数据集是什么数据集LAION是一个在德国的非盈利性组织,主要从事大规模机器学习和数据管理研究,会公布一些开放的数据集,代码和机器学习模型。他们接受了Stability,Hugging face,Doodlebot等公司和一些实验室的资助。LAION数据集是指LAION发布的以LAION开头命名的数据集,主要是图像-文本数据集包括了:LAION-400MLAION5BLAION-cocoLAION translatedLAION5B High-ResLAION AestheticsLAION-3DLAION-400M和LAION5B 可以用于训练:生成模型: 图像-文本生成模型,包括DALL-E这种自回归模型,GLIDE和Stable Diffusion这种扩散模型使用contrastive losses的模型: 像CLIP分类模型: zero-shot 分类模型LAION-5B: 训练下一代图文模型的大规模开放数据集标题: LAION-5B: An open large-scale dataset for training next generation image-text models单位: laion.ai团队链接: https://arxiv.org/abs/2210.06423代码: 无代码LAION-5B是一个5850亿对的图文数据,包括了2320亿对英文,2260亿对其他100种语言和127亿没有检测到语言的数据。可以点击下面的链接访问这个数据集,官方提供了搜索。clip-retrieval: https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn5.laion.ai&index=laion5B&useMclip=false这个数据集包括下面的数据:所有5850亿对图像的URL和元数据一个KNN的索引,主要是支持在这个1.6TB大小的数据集快速搜索一个Clip Vi-L/14 的图像embeddings (9TB)一个基于这个数据集的图文检索demo,就是上面的clip-retrieval基于这个数据集的安全标签(50GB)这个数据集有水印的标记(50GB)图像对有以下数据:网址: 图片网址,覆盖了数百万个域名文字说明,英文为 en,其他语言为 multi 和 nolang宽度: 图片宽度高度: 图片高度语言: 使用 cld3计算相似性: 文本和图像之间的余弦 相似度水印: 基于https://github.com/LAION-AI/LAION-5B-WatermarkDetection模型检测的水印概率不安全度: 基于https://github.com/LAION-AI/CLIP-based-NSFW-Detector模型检测的不安全度概率图像抓取开发团队的工作流程如上图,开始是分布式爬虫,然后下载图片文字对,然后对内容进行分析处理,最后存储。图像分别来自数百万个域名,然后用CLIP对图像文本对进行推理,计算图像和文本的相似度,相似度评分低的会删除,这个阈值英文为0.28,其他为0.26。除了删除相似度低的图像文本对外,还会对一些不符合要求的图文对进行删除,包括了:图像过小或过大,文本太小或太长图像重复一些非法内容下面是所有数据集的样本统计:英文样本统计多语言样本无语言样本特殊处理水印问题水印的图像是一个很大的问题,有人已经发现了生成的图像中会存在水印的情况。虽然开发团队已经处理了大部分的水印。他们是用了9万个样本,45222个水印和44778个没有水印,训练了一个识别水印的模型来识别了所有的图片,有水印会被丢弃。但是有水印和无水印其实也存在模糊,比如底部有小透明文字的图片被一些人认为是水印,而另一些人则不这么认为,所以生成的图像是有可能有水印的。水印模型已经开源了,链接:https://github.com/LAION-AI/watermark-detectionNSFW图像处理NSFW是Not Safe For Work的缩写,主要指成人图像等不合适的内容。开发团队也训练了一个模型来识别这些内容,然后把识别到的图像都删除了。 训练集有3000个样本,分类器准确率为0.96。模型和代码也开源了,链接: CLIP-based-NSFW-Detector图像版权问题论文中,有一个大家比较关心的点没有被提到,那就是来自这数百万个域名的5850亿个图像的版权是怎么样的。可以肯定的是,开发者们使用爬虫爬取这些图像和后期处理时都没有考虑过版权。 很多创作者也通过公开的搜索工具搜到了自己的作品,作品被用来训练,这也给创作者们带来了一些被取代焦虑。关于版权这个话题,后面一直会有争论,就看开发者们和创作者们怎么博弈了。就目前的数据集处理流程来讲,如果自己的作品不想被用来训练,只能在公布的时候打上水印,但这又是创作者们不想看到的。参考资源:https://arxiv.org/abs/2210.06423https://laion.ai/blog/laion-5b/