中国IDC圈6月14日报道,建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事物,它们早已出现在很多场合,譬如“产品模型”、“推荐模型”、“营销模型”、“挖掘模型”等等。但,它们有什么不同?

建模的幻影有千万种,有些人做过,有些人没做过,我们该如何看待?建模是不是需具备很多专业知识,非专业人士无法掌握?小白杨的所思所想,都在下面的文字。

一、建模并不神秘:让数据产生新的数据

一些建模的观点已在前面的道与法两篇体现,归纳如下:

建模的本质就是让数据产生新的数据。 人类、智能体的认知、行动需要用到不同的数据(Know->行动),如果这个数据没有被直接掌握,那就要基于已知的事实数据推测,这个过程就是“建模”,得到的结果就是一个新的“数据”。

大数据之“建模术”:数据挖掘还原用户的生活场景

建模就是在做侦探, 都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。

模型分三大类,但万变不离其宗。

第一类,利用已知的事实数据计算推测相关联的其它事实数据,譬如应用人的属性、行为数据推测它的消费需求;

第二类,利用已知的事实数据计算推测规律性的数据,譬如基于历史的购买记录分析商品的销售趋势、细分比较等;

第三类,利用已知的细节事实数据组合建立对事实全局的认识(数据),譬如从生效时间、适用区域及客户群、定价等维度建立产品模型,其实就是综合这些细节数据形成了一个“产品”的“数据”。

对“新”的数据的认识不要拘泥于一定要和以前的数据不一样,多个数据组合形成新的含义也是一种新的数据

数据是人类对世界的观测,把客观世界抽样、采集到数字世界里面,建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是,在数字世界里面,可以打破客观物质的当前认知局限,任意交叉组合,从而有无限创新的可能。

总结一下,建模本质就是对已知数据的组合、简单或者复杂的计算处理,最终转换成一个新的数据,从而影响行动

不同类型建模差别很大,接下来我们将聚焦到数据营销领域来探讨,部分观点不具备普适性。

二、建模的六大误区

误区一:会用工具等于会建模? 数据挖掘 大多遵循CRISP-DM流程,弄来很多的数据维度(有甚者上百种),选取某一种算法,找来训练集训练出一堆莫名其妙的规则,输出的目标用户特征谁也说不清楚,只能告诉你支持度、置信度多少。这个过程本来是没有问题的,前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。

真正的建模应该从业务目标开始,先基于业务目标理解客户分解挖掘方向(特征明显的群体),再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程,但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。锐的洞察挖掘方向、正确的数据选取是建摸的核心能力,比掌握工具更加重要!

误区二:建模不与实际销售场景相结合! 某央企(莫乱猜)各省公司大数据成功案例满天飞,模型成功率动辄30-40%。笔者看到的时候自惭形愧,也一直很纳闷,做了这么多年精准营销,大部分模型的营销成功率都是几个百分点,两位数以上的凤毛麟角,怎么别人的水平都已经赶超美帝了!后来终于搞明白,原来他们的目标客户在各种渠道成功下单都算,不管是否施加了营销动作,而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准,其实,这些模型的高成功率只能说明这批用户自然转化率高,找出这些用户并无实质意义,因为不施加任何动作用户就已经购买了,挖它出来干嘛?

建模必须与实际销售场景结合,要么找出自然转化率高的用户采取更低成本的接触方式转化,要么找出一批用户施加营销动作后较自然转化大大提升!

误区三:盲目使用、过度依赖训练集! 训练集是个双刃剑,正确使用能充分发挥技术算法的价值,而滥用则陷入误区。前面说的某央企案例,其实训练那些模型并不困难,不就把各渠道成功下单用户作为训练集嘛,掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。

训练集还要有代表性,譬如历史的数据是和大客户谈妥对其所有员工批量转化的,以这些数据为训练集就没有任何意义。营销场景初始往往没有训练集,必须跳出“训练集”局限。

误区四:要相关不要因果! 《大数据时代》作者提出这个观点的时候,其实并不是要放弃追求因果,而是找出相关关系后,更迫切的是接下来怎么做,因果关系可以慢慢研究。这一点被很多人误读,世间没有无缘无故的爱,也没有无缘无故的恨,两个事物相关度很高,背后必定有一串的因果链条,如果找不到,那可能是因为训练集的问题导致伪相关,我们就要警惕了。

误区五:过于迷信算法! 大道至简,有效的东西一定是简单的。非要复杂,那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题,没有好的数据基础,它无能为力。建模涉及到很多关键要素,比拼的是综合实力,在同等条件下,努力提升算法才是有意义的。

误区六:盲目追求数据精度! 高的精度意味着更高的成本,对应更少的数据规模,如何取舍就要运用“法”篇说的ROI原则了。

三、建模七术

大数据之“建模术”:数据挖掘还原用户的生活场景

1、场景驱动

建模的第一件事情是搞清楚应用场景,提炼卖点、利益点,哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户,匹配什么样的关键特征。

2、迭代建模

建模要用互联网思维“小步快跑,快速迭代”,快速对消费者需求做出反应,否则数据会失去时效。因此我们应从简单开始入手,采用简单算法快速输出数据,后续在实战中不断检验、修正、迭代优化,不断提升数据的精准性。

3、场景还原

确定业务目标后,还原用户的生活场景,设想用户的需求场景,再考察数据能否关联。理解生活,数据挖掘会很简单。商业最终解决的是人们的物质文化需求,你想挖掘什么样的群体,先从生活中去理解它,它在什么场景下需要这些产品,有什么行为习惯,在我们的数据中留下了哪些蛛丝马迹?譬如“外围女”这个群体,你too simple对她们一无所知,就很难把她们找出来。为了挖掘“工业区人群”,我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况,为了挖掘“出租车司机”,我们打车的时候对他们进行了访谈。

五个方面理解还原

身份属性:譬如商务精英消费能力高使用Iphone手机比例高

状态变化:譬如夜间位置变换,推测用户搬家了有宽带需求

行为表达:譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注

习惯偏好:譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机

关系推测:譬如和快递员交互的用户,我们推测它是一个电商消费者

对于任何一个业务目标,都可以从上述五个方面还原与业务目标相关联的场景,还原足够多的场景,就可以挖掘出足够规模的用户数据。

4、找数据关联

还原出场景后,就要找数据进行关联。有些我们可以基于直接数据进行输出,没有直接的数据,则找间接数据选取算法进行推导,而间接数据的选取,可继续应用上述五个方面场景还原的方法。至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节,文章很多。

5、快速收敛

建模是人与机器协作的结果,核心参与者是人,建模方向由人来确定,数据维度的选取主要是人(机器辅助验证),算法也是人设计的,机器所起的所用是训练迭代,而机器储存的数据相对人脑太单一,人对数据结果、应用结果进行解读,及时输入一些理解能加快收敛的速度。

6、少即是多 

挖掘的目标不仅仅是“有需求”,而是“能转化”,因为好的营销场景、文案,能激发那些原来看起来没有需求的用户的购买欲望,而即使是有需求的用户,如果不能直击它的痛点、愉悦点,也难以转化。

好的模型应尽量简单,很多复杂规则的模型有可能命中率高,但实际营销应用的时候,往往难以与营销特性相匹配,效果不一定好;而简单模型特征明显,全力聚焦用户特性策划营销动作,更能引起用户共鸣,产生兴趣进而购买。

7、高质量的数据才是硬道理

正是因为我们没有直接数据,所以我们只能找其它数据间接推导,如果我们掌握的数据与目标关联度很高,那么算法可以很简单,否则无论算法多么的先进,效果也是有一个瓶颈的。

与其花大力气建模,笔者更愿意前瞻性的解决数据源问题,收集更多更有效的数据。笔者更愿意当一个数据架构师,也一直自命数据架构师。

最后总结一下,建模其实并不神秘,本质上是让数据产生新的数据。而建模关键是要还原用户的生活场景,找准方向,找到合适的数据关联推导,快速校验迭代收敛。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
议程揭晓丨12月20日算力技术创新与应用系列论坛
2024-12-09 15:47:29
采访普洛斯数据中心郭仁声:智算时代 我们需要怎样的算力与数据中心
2024-12-09 11:44:05
5040机架 内蒙古云著智算产业园项目一期封顶
2024-12-06 14:24:19
马斯克超级计算集群再升级:xAI扩大GPU规模至百万
2024-12-06 14:21:34
未来10年的智算中心应该怎么建?|12月20日北京,AI算力建设系列论坛将启
2024-12-06 11:44:36
亚马逊发布超级计算机集群和新型AI芯片服务器
2024-12-05 14:54:16
12月20日北京,聚焦区域算力生态|2024算力产业生态高质量发展大会
2024-12-05 11:27:14
以用户需求为核心,科华数据领航高端定制数据中心新赛道
2024-12-04 15:52:50
英特尔CEO突然宣布退休 数据中心芯片竞争力不足或是主因
2024-12-04 10:12:00
莲花控股终止与新华三6.93亿订单:已自持700台算力服务器
2024-12-04 10:06:00
头部算力企业将悉数亮相、大咖云集,完整议程重磅公布|12月19-20日,北京,第十九届中国IDC产业年度大典重磅启幕
2024-12-04 09:54:00
总机柜1.8万个 兴业银行贵安新区数据中心开工
2024-12-03 10:07:00
SUSE推出一站式可观测性平台SUSE Cloud Observability 助力Rancher社区用户告别多工具监控
2024-11-28 15:19:38
800亿 17座数据中心落地马来西亚雪州
2024-11-28 14:53:32
5万机架 中国移动高原大数据中心(二期)开工
2024-11-28 14:47:35