Home大数据技术在用户画像中的应用
大数据技术在用户画像中的应用

大数据技术在用户画像中的应用

@诸葛子房

作者:诸葛子房
前京东、阿里大数据研发工程师,多年大数据开发经验
蓝桥杯《用户画像案例精讲》专栏作者
开源中国《程序员如何入门大数据》作者
多个Apache开源项目贡献者
开源项目DataCompare作者

原价199,现价39.9
订阅后,截图支付记录,加微信 zhugezifang001 进 大数据画像交流群,群内有开源项目作者,大厂数据技术专家和技术负责人
订阅165
文章23
最后更新:2024-2-29 16:50
查看 【大数据技术在用户画像中的应用】 详情查看 【诸葛子房】 主页
分享到微信打开

免费内容

2023-12-12 19:14

第05讲:数据处理:如何完善画像标签利用现有数据

一、背景这篇文章主要分享在一些中小型公司做用户画像,但是画像数据不全的情况下怎么做,大家都知道比如说:在支付宝或者一些银行,有你的身份证数据、有的存款数据,很容易拿到年龄,和你的资产情况,但是在一些其他的公司怎么办呢?比如说,还是想知道的资产情况或者消费情况,但是如果不是一些金融公司,比如说:游戏公司、视频公司、甚至一些更小的公司,根本拿不到用户资产数据。因此,是不是可以考虑用一个折中的方法来做资产评估,比如说:用户的手机是什么情况?比如说:是苹果手机还是红米手机,或者是iphone最新款还是iphone 4呢?一般只要安装或者访问了app或者网站,都能采集到用户的手机设备信息。 二、数据处理思路当一个用户访问京东或者淘宝等电商网站或者玩王者荣耀的时候甚至看视频的时候,都会上报设备相关的信息,比如设备的机型信息,存储信息等,数据如下表所示,但是实际是得不到手机品牌机型等数据的,只有处理之后才能得到。具体加工流程如下:采集到的原始数据:第一步:需要映射手机机型到营销名的映射,比如:iPhone3,1 其实对应的是iphone 4;M1805E2A 对应的是小米 8SE,具体映射网站参考:https://github.com/KHwang9883/MobileModels,https://blog.csdn.net/qq_19926599/article/details/86747401?spm=1001.2014.3001.5506第二步:爬取中关村手机的信息数据,得到如下表格第三步:最终我们借助第一步的字典映射数据即可匹配上用户这样就得到了一个设备的手机详细数据, 爬虫代码参考:https://github.com/zhugezifang/zol-collector三、利用 Github Action 自动实现爬虫上述流程里面提供了爬取手机价格的代码,那么有没有什么办法能做到爬取手机价格自动化呢?调研:(1)部署一台机器,定时运行爬虫任务进行爬虫----要求有一台机器(2)利用其他公司实现自动化爬取,比如:利用gitee 流水线、github action,gitee 流水线目前只有200分钟免费,因此考虑使用github action 来处理所以对于一些中小型公司来说可以利用Github 来白嫖爬虫功能。GitHub Action 介绍:https://docs.github.com/zh/actions首先实现好爬虫代码,保证本地测试可运行,提交到githup 上,新建action# This workflow will build a Java project with Maven # For more information see: https://help.github.com/actions/language-and-framework-guides/building-and-testing-java-with-maven name: Java CI with Maven on: schedule: # 定时执行,Runs at 17:00 UTC every day - cron: '0 16 * * *' # 手动触发事件 workflow_dispatch: inputs: logLevel: description: 'Log level' required: true default: 'warning' tags: description: 'Test scenario tags' jobs: build: runs-on: ubuntu-latest steps: - uses: actions/checkout@v2 - name: Set up JDK 1.8 uses: actions/setup-java@v1 with: java-version: 1.8 - name: Build with Maven run: mvn -B package --file pom.xml - name: Run Java Application run: java -cp target/zhihu-collector-1.0-SNAPSHOT-jar-with-dependencies.jar org.example.SpiderMain - name: Commit run: | git config --local user.email xiaoqiu2017wy@163.com git config --local user.name zhugezifang git add -A git commit -m "update" - name: Push changes uses: ad-m/github-push-action@master with: github_token: ${{ secrets.MY_GIT_TOKEN }} branch: master设置 Secrets 和仓库权限read and write(保证仓库可以push)这样就完成了配置,我们就可以利用github action 来做到自动化爬取手机价格数据了利用GitHub Action 来实现自动爬取手机价格数据,达到使画像数据更加完善的效果,避免利用服务器等资源,从效果来看是非常方便,文中代码参考:https://github.com/zhugezifang/zol-collector四、总结在一些中小型公司没有太全的数据的时候,可以考虑利用现用的数据,然后结合一些可以提取的数据,这样也能加工出来一些有价值的数据。比如说:可以根据加工手机的价格或者品牌、甚至系列来做一些营销,给价格高的手机或者高端机(苹果、华为的高端机)进行投放更优质的广告本篇文章只是以手机信息为例讲解如何在中小型公司做用户画像,很多中小型公司由于没有大公司那么全的数据,导致可挖掘的数据非常有限,本文也提供了一个思路如何在数据有限的情况下结合先有数据和网上数据融合一样能达到想要的要求。笔者了解到其实很多公司都有手机信息扩充的需求,但是大部分公司做的不好,我这边提供了一套自动化的解决方案供大家进行完善手机相关数据。订阅本学习手册之后,记得添加 微信 : zhugezifang001 ,会统一拉大数据技术画像交流群

2023-12-6 19:21

新人必读:大数据技术在用户画像中的应用

订阅本学习手册之后,记得添加 微信 : zhugezifang001 ,会统一拉大数据技术画像交流群小册子内容:序言:第00讲:大数据有哪些岗位?第一章:数据采集第01讲:数据采集:数据获取的方式哪些?第02讲:数据采集:利用爬虫来获取画像的原始数据第03讲:数据采集:用户画像介绍第二章:数据处理和存储第04讲:数据处理:如何从0到1建设用户画像第05讲:数据处理:如何完善画像标签利用现有数据第06讲:数据挖掘技术如何找到你就是你——在百度PC端上搜索小米手机,在手机端看视频的时小米手机的广告是如何找到你的?第07讲:数据挖掘技术判别男女老少——抖音等视频网站、淘宝等电商平台,怎么知道你是男是女,是老是少?第08讲:数据挖掘技术如何找到你住在哪——地理信息位置挖掘第09讲:离线计算和实时计算——大数据处理的常用技术和手段第09讲:数据存储——不同存储应对不同应用场景(加餐)第三章:数据应用和可视化第10讲:推荐引擎——如何给用户推送合适的内容,数据技术在推荐中的实现第11讲:策略引擎——大部分人看不到淘宝上奢侈品Luxury入口的原因是什么?第12讲:营销圈选——如何找到合适的人给他们投放合适的广告?第13讲:排行榜单——如何利用大数据实现知乎热门排行榜单?第14讲:朋友圈每年刷屏的年度报告究竟是怎么做的?第15讲:数据可视化——京东618核心数据大屏到底是怎么做的?第四章:程序员的职业规划之路第16讲:技术专家和大厂管理第17讲:行业寒冬、大厂裁员降薪之下,我们究竟能做些什么?第18讲:开源项目如何变现第19讲:程序员职业成长——知乎粉丝4000,变现4w,首次公开我的自媒体变现经历第20讲:程序员职业成长——分享我的付费课程撰写经历