网络云服务器_大数据数据质量

产品 虚拟云 浏览

小编:这本笔记本是里克斯和SafeGraph合作制作的Ryan Fox Squire,产品数据科学家@SafeGraphAndrew Hutchinson,Databricks解决方案架构师Prasad Kona,合作伙伴解决方案架构师@Databricks我们已经创建了这个

Databricks、AWS和SafeGraph协同工作,以便更容易地分析消费者行为

这本笔记本是里克斯和SafeGraph合作制作的Ryan Fox Squire,产品数据科学家@SafeGraphAndrew Hutchinson,Databricks解决方案架构师Prasad Kona,合作伙伴解决方案架构师@Databricks我们已经创建了这个Databricks笔记本(.dbc在这里下载),并发布了这个博客,这样您就可以在Databricks中使用来自AWS数据交换的SafeGraph数据。有关准备运行的代码,请参阅补充数据块笔记本。要查看完整的SafeGraph数据集,请访问SafeGraph数据栏。了解更多–现在就注册参加这个网络研讨会:在SafeGraph上为机器学习构建可靠的数据管道您将显示此博客:如何从aws3(通过AWS数据交换)将SafeGraph模式数据(消费者感兴趣点上的丰富数据集)加载到Databricks笔记本中。如何充分利用Databricks三角洲湖技术如何使用SafeGraph数据分析线下消费者行为和主要企业零售和餐饮品牌(如星巴克)的流量。星巴克在一天中的哪几天最受欢迎或最不忙?顾客在星巴克停留多久?去星巴克的顾客离家多远?星巴克顾客的交叉购物品牌偏好是什么?他们还会去哪些商店?如何使用SafeGraph数据,结合人口普查数据,进行客户人口统计分析并建立客户统计档案?本笔记本的前半部分展示了如何读取、加载和准备数据。下半部分展示了如何使用sparksql回答分析问题。问题?联系我们数据仓库+aws@safegraph.com。什么是安全图形模式?SafeGraph是一家地理空间数据公司,专注于了解物理世界。SafeGraph Patterns是一个由美国3.6毫米商业实体兴趣点(POI)组成的数据集,包括每月访问这些兴趣点的匿名人数。访客数量来自美国约35MM移动设备(如智能手机)的匿名面板(纵向测量的人口样本)。SafeGraph模式旨在回答以下问题:有多少人在参观一个地方?他们多久拜访一次?我们小组有多少独立访客去过这个地方?平均而言,游客来自哪些普查区?游客从一个景点到另一个景点的交叉购物行为是什么?人们在一天中的哪几天访问?参观这个地方的游客离家多远?人们参观这个地方多长时间?保护个人消费者隐私是SafeGraph使命的核心:"SafeGraph的使命是在保护个人隐私的同时,使全球数据开放,以供创新。"—SafeGraph愿景与价值观面板中的设备是完全匿名的;面板中的设备不存在身份或人口统计信息,并且SafeGraph产品中不存在单个设备级别的数据。SafeGraph模式的聚合形式有助于确保个人隐私的保护,同时也为统计分析和数据科学提供了可操作的数据。有关SafeGraph模式的所有详细信息,请参阅SafeGraph模式文档。什么是数据块?Databricks是一个统一的分析平台,它使数据科学、数据工程和业务分析团队能够以协作的方式从数据中获得价值,并且易于使用。Databricks平台的核心是由Apache Spark和Delta-Lake在一个云本地架构中提供支持,这为用户提供了几乎无限的马力,可以在几分钟内从笔记本电脑界面获取、清理、转换、组合和分析数据集,并可选择流行的语言(python、scala、SQL、R)。因为Databricks是一个托管平台,客户不必成为大数据开发专家来满足他们的分析需求,从而减少了数据驱动项目的管理负担、成本和风险。Delta Lake在下面的Safegraph笔记本中也有介绍,它为Databricks平台带来了独特的功能:可靠性:Delta Lake通过使数据工程管道具有事务性——ACID语义,提高了数据湖中数据集的完整性,当应用于数据工程和机器学习时,让客户有信心对高质量数据和问题(如部分摄取的数据集)进行分析,脏读和对新数据的并发一致访问将自动处理。性能:Delta Lake在引擎盖下进行了特定的优化,例如智能缓存、统计数据的自动收集、压缩和z-排序,这些都加快了数据工程管道的性能和对已清理数据的报告。我们如何将SafeGraph模式从AWS数据交换加载到Databricks数据湖?为了展示SafeGraph数据在Databricks中的强大功能,我们将重点介绍三个来自SafeGraph的数据集,这些数据集目前可以在AWS Exchange中免费使用。SafeGraph模式——美国星巴克SafeGraph Core Places–美国星巴克SafeGraph开放式人口普查数据按照以下步骤订阅AWS数据交换中的Safegraph数据集在您的AWS帐户中转到AWS数据交换服务,搜索"SafeGraph Patterns Census–Starbucks in the USA"从AWS数据交换用户界面订阅上述3个Safegraph数据集订阅过程将需要几分钟时间–完成后,您将在订阅UI中看到订阅,如下所示通过单击Subscriptions UI中的数据集名称并从其修订id导出到S3流,将所有3个订阅的数据集导入到您选择的S3存储桶中。一旦数据集被导出到您选择的S3存储桶中,从任何一个数据集上的Databricks链接下载Databricks笔记本确保您可以访问Databricks帐户-这里提供免费试用版。创建并启动交互式Databricks集群关于如何创建交互式Databricks集群的说明两个节点的i3.2xl集群就足够了确保您的集群有权访问导入AWS数据交换Safegraph数据集的bucket看看如何将IAM角色与Databricks集群关联起来,以实现安全的S3访问导入从Safegraphs AWS数据交换UI下载的Databricks笔记本有关如何导入noteboo的说明将导入的笔记本附加到群集更新notebook参数以指向您的S3存储桶替换notebook顶部的"Delta External Table Location"参数,指向上面配置的S3 bucket上的一个选择文件夹,Databricks将在这里写入优化的Delta数据集替换Open Census、Safegraph Core Place和Safegraph Patterns参数,以指向导入到S3存储桶中的相应AWS数据交换数据集单击"全部运行"以执行笔记本然后,笔记本会解析、清理、连接上述数据集,并将它们转换为Delta表,以便进行大规模的快速分析-所有这些工作都将在您创建的Databricks集群上执行。以上是客户获得的用户体验,而不管涉及的数据量有多大—用户专注于分析,而底层的Databricks群集可自动扩展以处理数PB的数据量,而无需用户成为大数据devops专家。在Databricks中使用SafeGraph数据可以了解到哪些消费者行为?一旦您将SafeGraph数据加载到Databricks中,一堆关于消费者行为的令人兴奋的答案就在您的指尖。要在Databricks笔记本中看到这些实现,请查看附带的演示笔记本。人们一天中什么时候去星巴克?只需几行代码,您就可以检查星巴克各个地点的相对受欢迎程度,以及星巴克在全国范围内的平均受欢迎程度。每个safegraph_place_id都是不同的独特星巴克位置。x轴显示一天中从午夜(0)到晚上11点(23)的每一小时(当地时间)。y轴反映了每个小时有多少次访问发生,在一个月的所有天数中求和,占整个月总访问量的百分比(请注意,跨越小时界限的访问量将以多个小时计算)。因此,所有小时的总百分比加起来可能大于100%。)我们看到,尽管交通在早上确实有所增加,但交通高峰实际上是在晚上12点和下午1点左右。人们一周中的哪几天去星巴克?我们可以问同样的问题,但关于一周中哪一天最受欢迎。从20个随机星巴克的例子来看,平均来说,没有哪一天比其他日子更受欢迎。然而,有些景点确实显示出有趣的周末与工作日的差异。我们可以检查其中一个POI并将其与全国平均水平进行比较。这项数据显示,平均全国范围内,星巴克一周中最忙的日子是周三和周四,尽管这是一个温和的偏好。相比之下,safegraph_place_id sg:685133877500e48eb87d719207d058309显示了一种非常不同的模式,并且与工作日相比,周末的受欢迎程度明显降低。要可视化此POI的位置,您可以从SafeGraph数据集中读取(纬度、经度)并在谷歌地图中搜索。原来,这家星巴克位于波士顿大学法学院的校园内。大概是因为周末不上课这一事实造成了工作日与周末的巨大差异。人们去星巴克要走多远?SafeGraph报告每个POI(从家庭普查区块组)行驶的中间距离。利用这个我们可以构建一个星巴克位置的柱状图,显示人们去星巴克旅游的距离。这些数据显示,大多数星巴克地点吸引的游客居住在不到10公里的地方。不过,星巴克还有一条长长的细尾巴,距离家的中间距离是数百公里。这些地点很可能位于游客量大或通勤率高的地区(如机场),大多数游客的地理位置不在附近。白色

当前网址:http://www.vmchk.com/app/5891.html

 
你可能喜欢的: