2023-12-12 19:14
第05讲:数据处理:如何完善画像标签利用现有数据
一、背景这篇文章主要分享在一些中小型公司做用户画像,但是画像数据不全的情况下怎么做,大家都知道比如说:在支付宝或者一些银行,有你的身份证数据、有的存款数据,很容易拿到年龄,和你的资产情况,但是在一些其他的公司怎么办呢?比如说,还是想知道的资产情况或者消费情况,但是如果不是一些金融公司,比如说:游戏公司、视频公司、甚至一些更小的公司,根本拿不到用户资产数据。因此,是不是可以考虑用一个折中的方法来做资产评估,比如说:用户的手机是什么情况?比如说:是苹果手机还是红米手机,或者是iphone最新款还是iphone 4呢?一般只要安装或者访问了app或者网站,都能采集到用户的手机设备信息。 二、数据处理思路当一个用户访问京东或者淘宝等电商网站或者玩王者荣耀的时候甚至看视频的时候,都会上报设备相关的信息,比如设备的机型信息,存储信息等,数据如下表所示,但是实际是得不到手机品牌机型等数据的,只有处理之后才能得到。具体加工流程如下:采集到的原始数据:第一步:需要映射手机机型到营销名的映射,比如:iPhone3,1 其实对应的是iphone 4;M1805E2A 对应的是小米 8SE,具体映射网站参考:https://github.com/KHwang9883/MobileModels,https://blog.csdn.net/qq_19926599/article/details/86747401?spm=1001.2014.3001.5506第二步:爬取中关村手机的信息数据,得到如下表格第三步:最终我们借助第一步的字典映射数据即可匹配上用户这样就得到了一个设备的手机详细数据, 爬虫代码参考:https://github.com/zhugezifang/zol-collector三、利用 Github Action 自动实现爬虫上述流程里面提供了爬取手机价格的代码,那么有没有什么办法能做到爬取手机价格自动化呢?调研:(1)部署一台机器,定时运行爬虫任务进行爬虫----要求有一台机器(2)利用其他公司实现自动化爬取,比如:利用gitee 流水线、github action,gitee 流水线目前只有200分钟免费,因此考虑使用github action 来处理所以对于一些中小型公司来说可以利用Github 来白嫖爬虫功能。GitHub Action 介绍:https://docs.github.com/zh/actions首先实现好爬虫代码,保证本地测试可运行,提交到githup 上,新建action# This workflow will build a Java project with Maven
# For more information see: https://help.github.com/actions/language-and-framework-guides/building-and-testing-java-with-maven
name: Java CI with Maven
on:
schedule:
# 定时执行,Runs at 17:00 UTC every day
- cron: '0 16 * * *'
# 手动触发事件
workflow_dispatch:
inputs:
logLevel:
description: 'Log level'
required: true
default: 'warning'
tags:
description: 'Test scenario tags'
jobs:
build:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Set up JDK 1.8
uses: actions/setup-java@v1
with:
java-version: 1.8
- name: Build with Maven
run: mvn -B package --file pom.xml
- name: Run Java Application
run: java -cp target/zhihu-collector-1.0-SNAPSHOT-jar-with-dependencies.jar org.example.SpiderMain
- name: Commit
run: |
git config --local user.email xiaoqiu2017wy@163.com
git config --local user.name zhugezifang
git add -A
git commit -m "update"
- name: Push changes
uses: ad-m/github-push-action@master
with:
github_token: ${{ secrets.MY_GIT_TOKEN }}
branch: master设置 Secrets 和仓库权限read and write(保证仓库可以push)这样就完成了配置,我们就可以利用github action 来做到自动化爬取手机价格数据了利用GitHub Action 来实现自动爬取手机价格数据,达到使画像数据更加完善的效果,避免利用服务器等资源,从效果来看是非常方便,文中代码参考:https://github.com/zhugezifang/zol-collector四、总结在一些中小型公司没有太全的数据的时候,可以考虑利用现用的数据,然后结合一些可以提取的数据,这样也能加工出来一些有价值的数据。比如说:可以根据加工手机的价格或者品牌、甚至系列来做一些营销,给价格高的手机或者高端机(苹果、华为的高端机)进行投放更优质的广告本篇文章只是以手机信息为例讲解如何在中小型公司做用户画像,很多中小型公司由于没有大公司那么全的数据,导致可挖掘的数据非常有限,本文也提供了一个思路如何在数据有限的情况下结合先有数据和网上数据融合一样能达到想要的要求。笔者了解到其实很多公司都有手机信息扩充的需求,但是大部分公司做的不好,我这边提供了一套自动化的解决方案供大家进行完善手机相关数据。订阅本学习手册之后,记得添加 微信 : zhugezifang001 ,会统一拉大数据技术画像交流群