游戏服务器_阿里云服务器供应商_限量秒杀

安全 虚拟云 浏览

小编:将数据从Kafka加载到Hana云时,有两个基本问题需要回答: SAP Kafka Connect是为一个极端而构建的,其中Kafka只包含表级别的更改—没有嵌套数据—并且没有结构更改。缺少的是另一个极端

将数据从Kafka加载到Hana云时,有两个基本问题需要回答:

SAP Kafka Connect是为一个极端而构建的,其中Kafka只包含表级别的更改—没有嵌套数据—并且没有结构更改。缺少的是另一个极端。

一个Kafka接收器,阿里服务器的,它可以加载任何Kafka消息,并将这些嵌套数据存储在关系模型中–Hana Cloud Loader(这个github页面包含所有关于安装、docker容器位置、配置等的信息)。

如果消息只是关系型的,一个表就足够了。对于嵌套对象,连接器为Avro模式中的每个数组字段创建一个单独的表,子表还包含主表的主键以供参考。

在本例中,客户模式有一个包含多个CompanyAddress行的子模式,这样就创建了Customer和Customer\u CompanyAddress表。

Customer模式也有一个字段"\u audit",但这只是一个子记录。因此,Customer表中包含了这个数据库的数据。但是这个子模式的"细节"字段是一个数组。其数据存储在Hana表"Customer\u audit\u details"中,

数组字段"\u extension"存在于Customer和CustomerAddress级别。一个表Customer\u扩展包含所有数据。列\u RECORD\u PATH、\u PARENT\u RECORD\u PATH和FIELD包含此记录在架构中存储的位置的信息。

如果向架构中添加新字段,则目标表将自动扩展。

如果Hana云像数据湖一样使用,则需要这种方法,所有数据都应存储在其中,不应丢失任何源信息。

此外,可以对每个表进行分区,企业数据库,并将分区分配给一个数据温度。

在上述示例中,数以百万计的客户和地址记录被不断使用,关于每个记录所经历的业务规则和转换的信息是以前的30倍,云服务器与,而且很少使用。这些表被分配到一个热存储——Hana云的数据湖存储级别。

剩下的一个问题是创建表时使用的数据类型。在Avro中,只有七种基本数据类型,甚至没有十进制作为基元存在。Avro支持逻辑数据类型来添加一些更像十进制的数据类型。但这远不是Hana所支持的。

当然,每个Avro数据类型都可以映射到默认的Hana数据类型,例如,一个无界字符串得到一个NVARCHAR(5000)列(因为nClob很慢)。最好使用适当的数据类型,如NVARCHAR(10)、VARCHAR(10)、VARBINARY(10)或NCLOB。因此,Hana加载程序需要来自模式的更多信息。

通过用确切的类型注释Kafka模式,云服务器价,这可以很容易地完成。

为了跟上Kafka,Hana加载程序必须使用数据库接口允许的所有性能技巧来实现。数据通过准备好的语句加载,并将同一个表上的多个更改批处理到单个请求中。这样就大大减少了网络往返次数,这是与云系统交互时的一个核心要求。

这篇文章是一系列文章的一部分,大数据云开发,当它与其他组件结合时,它的全部能量将被解锁。

当前网址:http://vmchk.cooou.com/secaidapei/2021/0208/50358.html

 
你可能喜欢的: