百度云_大数据分析数据库_优惠券

网站空间 虚拟云 浏览

小编:在SAP HANA中,除了基本的分词等文本分析任务外,从SPS09开始增加了文本挖掘(Text Mining)的功能。具体来说,具体来说包括文本关键词提取,文本分类,相似文本查找,相似单词查找

在SAP HANA中,除了基本的分词等文本分析任务外,从SPS09开始增加了文本挖掘(Text Mining)的功能。具体来说,具体来说包括文本关键词提取,文本分类,相似文本查找,外国云服务器,相似单词查找等功能,在SPS09中,文本挖掘接口以XS接口的形式提供,在SPS10中,提供了SQL形式的接口,买个云服务器,这对于文本挖掘的任务,真是非常cool, 有了这个神器,文本分类不再需要整合R,直接在HANA中就可以实现文本分类的功能,具体来说,在HANA内部,在建立全文索引之后,维护了一个term-document矩阵,基于此,可以计算TF,IDF,TF-IDF等词项权重,以欧几里得距离为基础,实现K近邻分类。

废话不多说,下面直接见例子,本文只是介绍最基本用法为主,更多参数及原理请读者自行查找相关资料。

- 准备数据

我们插入6条记录,属于俩个大类,‘china’跟’fish’.

二 建立全文索引

具体参数意义请参考相关文档,我就不一个一个解释了,企业数据网盘,主要是关闭FAST PREPROCESS,关闭SEARCH ONLY,打开TEXT ANALYSIS跟TEXT MINING,文本挖掘配置参数文件用默认的。

三 Delta Merge

记住,这一步非常重要!!!!!

四 相关功能函数

(1) 输入一个单词,找出相关的单词。

例如找出fish的相关单词

(2) 输入一篇文章,找出文章中重要的单词

例如,找出ID=3的文章中的重要单词

(3) 输入字符开头,找出推荐的单词

例如找出C开通的单词

(4) 以文找文,输入一篇文章,找出相似文章

(5) 以词找文

(6) kNN分类算法

在上例子中,我们的训练集合中就两类,fish跟china。然后我们想看看water是哪个类别,在结果的CATEGORY_VALUE中看到是fish这一类的。

全部SQL代码参考附件textmining.sql

参考资料:

1

2

[本文的测试案例所使用的SAP HANA版本为SAP HANA SPS10]

想获取更多SAP HANA学习资料或有任何疑问,专属云服务器,请关注新浪微博@HANAGeek!我们欢迎你的加入!

转载本文章请注明作者和出处%E4%B8%AD%E7%9A%84%E6%96%87%E6%9C%AC%E6%8C%96%E6%8E%98

请勿用于任何商业用途。

请问该示例,在SP09中能实现吗?如能实现,需做哪些调整?

SP09已经开始支持text mining了,不过接口形式不是SQL函数,而且需要通过XSJS的接口,云存储哪个好,具体参考text mining develop guide

当前网址:http://vmchk.cooou.com/experience/101184.html

 
你可能喜欢的: