私有云存储_有哪些_国内云存储

云存储服务 虚拟云 浏览

小编:你有没有想过要把HANA的许多引擎结合起来,但不知道怎么做?也许您还在等待正确的用例? 在这里,我们想要识别非结构化文档、PDF和Word文档中的人员或位置。表面一些情报,也许

私有云存储_有哪些_国内云存储

你有没有想过要把HANA的许多引擎结合起来,QQ云服务器,但不知道怎么做?也许您还在等待正确的用例?

在这里,我们想要识别非结构化文档、PDF和Word文档中的人员或位置。表面一些情报,也许是人与人之间的关系。

为了这个博客的目的,我们收集了一些公共文件-公司年度报告、英国政治宣言和SAP文档。

这能在SAP HANA内部实现吗?答案当然是肯定的整个过程是这样的。获取非结构化文档(HANA智能数据集成)

打开虚拟表显示我们有三个有用的列,目录路径、文档名称和二进制格式的文档本身。

下面的SDI流程图从虚拟表中创建了一个物理表,并添加了3个列(类别、MIME、,LANG)以后会有用的。

2。识别文档中的人员(HANA文本分析)

使用HANA文本分析,我们可以将非结构化文档转换为结构化形式。文档的结构化形式识别许多不同类型的实体,云数据库,包括人员。为此,我们需要创建文本索引,该索引将为我们创建$TA表。下面我们创建了a.hdbfulltextindex

查看数据显示,文本分析发现了大量的人(13996)

我们应该检查一些人实体

在下面的结果中,我们可以看到一些人是真实的人-比尔·麦克德莫特、格哈德·奥斯瓦尔德、伯纳德·勒克特、哈索·普拉特纳和更熟悉的名字,但也有一些人似乎不喜欢,不喜欢,不喜欢。清除被识别的人(HANA智能数据质量)

如以上输出所示,从文档中正确提取人并不容易。有些实体被认定为人,云存储空间,而不是真正的人。我的一位同事remiastier建议我执行一些数据质量检查来清理这些名称。这将提供更好的质量输出。

此外,我们可以包括进一步的处理,指定一些质量规则什么是可以接受的。e、 g.需要名字和姓氏。

为此,百度云服务器,我们创建了下面的流程图。

,电子数据库

当前网址:http://www.vmchk.com/tutorials/72702.html

 
你可能喜欢的: