S/4 HANA 1809 已经在上月发布,随之而来的是ABAP 7.53。

本文是更新文档中ABAP SQL的部分的翻译。

本次更新的内容较多,主要内容包括:Open SQL更名为ABAP SQL;新函数和表达式;限制移除;table buffer增强;更严格的语法检查规则等。

 

译者水平有限,如有错误之处,请评论指出。

 

本文链接:https://www.cnblogs.com/hhelibeb/p/9848373.html

1,Open SQL的新名字:ABAP SQL

Open SQL已经被更名为ABAP SQL。这个重命名反映出ABAP SQL的某些部分目前只支持特定的数据库平台(SAP HANA数据库),已经不再是全平台独立的了。

2,层次函数

层次函数(Hierarchy functions)是可以在查询中被指定为数据源的表函数(table function)。

3,辅助连接

在一个以SAP HANA为主数据库的ABAP应用服务器上,表DBCON里的辅助连接也应该是一个SAP HANA数据库。除了CONNECTION附加项以外,它也对ABAP SQL和NATIVE SQL生效。(ADBC和EXCE SQL)。

不再需要使用Database Shared Libraries (DBSL),而应使用SAP HANA Smart Data Access (SDA)。在SDA中,辅助数据库使用特殊限定名或使用虚拟表从SAP HANA数据库中寻址。如果将SAP HANA数据库是ABAP服务器主数据库,ABAP程序可以通过标准连接使用这些名字。只能通过AMDP或者Native SQL来使用这一功能。

4,关系表达式 IS INITIAL

可以在SQL条件中使用表达式 IS [NOT] INITIAL 来比较运算数和它们的类型初始值。

如果使用了该表达式,语法检查会以7.53版本的严格模式运行。

(译注:从文档来看,7.53版本的严格模式规则和7.52版本是相同的。)

5,日期/时间函数

ABAP SQL现增加了对以下日期/时间函数的支持:

  • 时间戳函数
    • TSTMP_IS_VALID
    • TSTMP_CURRENT_UTCTIMESTAMP
    • TSTMP_SECONDS_BETWEEN
    • TSTMP_ADD_SECONDS

 如果使用了这些函数,语法检查会以7.53版本的严格模式运行。

6,发布公用表表达式的Associations

可以通过公用表表达式(common table expression,以下简称CTE)访问CDS视图,现在可以使用语句WITH的WITH ASSOCIATIONS附加项来发布这些视图的association,以便在当前WITH语句的路径表达式中使用。附加项REDIRECT TO也可以用于替换前CTE或当前CTE发布的association的目标数据源。

如果使用了该附加项,语法检查会以7.53版本的严格模式运行。

7,SELECT列表中的数字

此前,在SELECT查询中只能使用INT4类型范围内的值。现在,可以使用长度为31的数字,当其不在INT4类型范围内时,会被解释为DEC类型。

8,CAST增强

现在可以通过CAST表达式把INT1, INT2, INT3, INT4和INT8转换为DEC了。

9,INSERT语句子查询中的Client操作

现在,INSERT语句的附加项USING CLIENT可以在子查询中指定了。这意味着在插入操作中指定的目标表的client可以不同于子查询数据源的client。

如果没有在子查询中指定USING CLIENT,自动client操作会应用当前的client ID。在7.53之前,使用USING CLIENT指定的client ID也会在子查询中使用。

现在子查询的FROM子句可以访问使用INSERT语句填充的数据库表或经典视图,这意味着可以从一个client复制数据到另一个client。

使用这一特性时,语法检查会以7.53版本的严格模式运行。

10,以子查询为数据源的MODIFY

在ABAP SQL的写语句MODIFY里,可以在FROM关键字后面使用一个加上括号的SELECT subquery_clauses来实现以子查询作为数据源。子查询的数据结果集的行,会直接在数据库中插入或更新到目标表里。不再需要把数据从数据库传输到ABAP应用服务器了。

使用这一特性时,语法检查会以7.53版本的严格模式运行。

11,USING CLIENT和会话变量client

如果在一个ABAP SQL读语句中,存在对一个特定于客户端的CDS视图的多查询,并且该CDS视图中使用了annotation:@ClientHandling.algorithm:#SESSION_VARIABLE的话,多个查询中的会话变量client(相当于SAP HANA数据库中的ABAP特定会话变量CDS_CLIENT)必须设为同一值。如果为其中某项查询设定了不同的值,则会发生运行时错误SAPSQL_DIFFERENT_CLIENT_VALUES。这种情况会在使用了WITH语句或者UNION语句时发生。

12,表缓存中的null值

现在表缓存支持真null值了,null值不再被转换为类型初始值。在访问缓存时,会产生和直接访问数据库时一样的结果。不再存在相应的限制。这会影响到以下方面:

  • 对于包含null值的关系表达式,现在在缓存中进行比较的时候,结果也是unknown了(除非表达式是IS [NOT] INITIAL)。
  • IS [NOT] NULL不再绕过缓存。
  • 访问被缓存的CDS视图。当缓存被访问时,会产生和直接访问数据库相同的结果。null值通常由outer join或某些表达式如case表达式产生。已经不再存在只有不产生null值的CDS视图才能被缓存的限制。

13,限制移除

  • 对于某些SQL表达式和函数,ABAP SQL的读语句不再绕过缓存。
  • 在不需要识别单行或者generic range的条件里,当某列指定在比较或者BETWEEN的右侧时,ABAP SQL读语句不再绕过缓存。前提是两个运算数都是数字类型的、并且不是DF16_DEC类型或者DF34_DEC,或者都是字符类型的,或者都是都是RAW类型、且具有相同长度。

14,弱检查

在ABAP SQL语句里使用了不被全部数据库平台支持的特性时,不会再产生语法检查警告,而是产生扩展程序检查警告。

15,新检查

如果以内表作为SELECT语句的数据源时,内表需要被传递给数据库表,会产生一个语法警告。可以使用pragma ##itab_db_select来隐藏这个语法检查警告。

16,程序调用中的替换服务

CL_OSQL_REPLACE中的方法ACTIVATE_REPLACEMENT有了新参数FLG_SURVIVE_SUBMIT,允许在被调用的程序中进行重定向。

17,GROUP BY附加项GROUPING SETS

在一个SELECT语句中,可以使用GROUP BY附加项GROUPING SETS了。附加项GROUPING SETS可以在一个SELECT语句下进行多个分组聚合。也可以在一个语句中通过对相同的SELECT使用不同的GROUP BY子句分组、并且使用UNION来实现相同的功能。后者易出错并且对数据库来说更难优化。相比之下,GROUPING SETS附加项也使得解释和维护SELECT语句变得更简单。

18,聚合函数GROUPING

现在可以在SELECT语句中使用GROUPING函数。带有聚合函数GROUPING的聚合表达式在GROUP BY子句中担任分组集GROUPING SETS的分组函数。分组函数GROUPING可以区分出在结果集中的指定的列是否被聚合。只能在使用了包含GROUPING SETS附加项的GROUP BY子句的情况下使用该函数。

19,语法规则的更严格检查

过去在语法检查的严格模式的某些检查规则,现在在非严格模式下也会有效。在非严格模式下,违反这些规则会产生语法检查警告,在多数情况下,会导致程序运行期间产生运行时错误。

  • 在访问视图时,键字段必须位于开始处。
  • 在访问关联了CDS role的CDS entity时,不能使用附加项USING CLIENTCLIENT SPECIFIED。
  • 即使在使用路径表达式时,附加项CLIENT SPECIFIED也只能用于特定于客户端的数据源。
  • 指定列时,对于包含include结构的数据库表,必须使用组件的实际名称,而不是ABAP Dictionary中定义的任何组的名称。
  • 使用关键字AS定义的SELECT列表的别名最多可包含30个字符。ORDER BY后也不允许使用超过30个字符的备用列名。
  • LCHR和LRAW类型的列只有在与相应长度字段一起读取时才能在查询中读取。
  • 对于SELECT中的FOR ALL ENTRIES
    • 数据源的列与内表列之间进行比较且它们的类型为p时,小数位必须匹配。 
    • 在ORDER BY之后使用PRIMARY KEY指定的主键的所有列也必须出现在SELECT列表中。
    • 只能为具有基本行类型的内表指定伪组件table_line。
  • 对于聚合函数之外、在HAVING后指定的列,必须使用GROUP BY分组。这也适用于在使用了HAVING子句的时候直接在SELECT列表中指定、但没有在GROUP BY后指定的列。
  • 如果SELECT列表指定为*,HAVING子句只能同GROUP BY子句一起使用。
  • 如果ORDER BY后使用了别名,这个名字必须是唯一的,也不可以和没有别名的列的名字相同。
  • 在into后指定的工作区wa的字段少于SELECT列表中的显式字段。
  • 在SELECT列表中显式指定的字段无法被赋给into子句中相应的结构工作区wa里的字段,或者无法赋给由括号包围、逗号分隔的数据对象。
  • 在LIKE的右侧,不能指定长度是左侧字段2倍以上的字符文本或常量。
  • 使用UPDATE FROM或MODIFY FROM访问所有字段都是键字段的投影视图
  • 使用INSERT FROM, UPDATE FROM,或者MODIFY FROM创建写入流时指定于通用的引用(A reference that is too general)。
  • 在语句UPDATE中,列只能出现在单个更新表达式(update expression)的左端。
     

SAP CRM使用Installed Base(以下简称IBase)来组织服务相关对象并进行管理。因为我在最近的工作中经常接触这个概念,所以学习了一点相关文档。下面是文档的翻译。

 

本文链接:https://www.cnblogs.com/hhelibeb/p/9952344.html

英文原文:Installed Bases

定义

IBase是包含IBase组件的多级结构。IBase用于管理已在客户位置安装(或将要安装)的对象,例如设备、机器或软件。IBase描述了这些对象的层级结构和它们的各个组件,并且可以用作服务的参考基础。

应用

IBase适合存储你的客户结构和安装在客户位置的服务相关的对象。

可以参考IBase或IBase组件来确定服务合同和创建服务订单。

交互中心代理(Interaction center agents,客服)可以在联系客户时通过合作伙伴、地址、对象数据或IBase号码来搜索和显示IBase组件。交互中心内可以列出IBase的列表,其中的IBase组件可以作为服务业务的参考对象被复制。

在前往客户现场前、或在现场时,现场服务代表或服务员工可以通过移动设备(比如笔记本电脑)显示、变更IBase数据,以及创建新的IBase。

通过E-Service,客户的员工可以创建IBase或者访问已经存在的IBase。他们也可以为这些IBase创建投诉或者服务请求。

有两个基本的创建和维护IBase的方式(二者可以结合使用)

  • 一个IBase对应多个对象
    将一个客户的全部对象分组到一个IBase中。这个选项在单个对象的子结构的重要性不大的时候特别有用。
  • 一个IBase对应一个对象
    为每个和服务有关的对象创建一个IBase(也就是为每个设备、每个机器、全部软件等等)。这个选项在单个对象的子结构比较重要的时候特必有用,比如,大机器的服务备件订单。

结构

IBase显示为树形结构。

IBase由以下部分组成:

  • IBase本身是一个分组单元,你将所有的部分(组件)分组到了一个结构中。
  • IBase组件(见Installed Base Components)是IBase内的部分。

注意:名词IBase指的是整个IBase和全部被分配的组件。一个IBase本身也可以是其它IBase的组件。

当你变更结构和组件的时候,有效性间隔会被确定,因此你可以追溯之前的状态。(译注:没看懂什么意思,可能理解不对。原文:When you make changes to the structure and components, validity intervals are determined, so that you can retrace previous statuses.

系统会为IBase分配ID。你也可以输入一个外部ID或者描述。

例子

IBase可以是一个厨房电器、建筑物里的一台电梯、或者一家公司的建筑物里的全部电梯。

IBase也可以包含复杂对象,比如一架飞机和所有服务相关的部分,或者一架尚未建造的、但是相关部分需要从计划和建造开始的阶段受到管理的飞机。

飞机的IBase也可以包含两翼,它应该在制造后与高层IBase(飞机)建立继承关系。

下图展示了一个IBase的例子,代表一个IT系统,并包含解释。

图中有一个为IT系统创建的IBase。IBase有地址和合作伙伴数据。在IBase的第一个子层级,以下文本组件已经创建:

  • Room A01
    该组件有以下低级别文本组件:
    • Desk 1
      这个组件下面是一个产品组件,代表一台PC。 
    • Desk 2
      这个组件下面是一个产品组件,代表一台PC。
    • Desk 3
      这个组件下面是一个产品组件,代表一台PC。
  • Room A02
    该组件有一个低级别文本组件Desk 1。Desk 1下面有以下产品组件被创建:
    • 一台PC。
    • 一台扫描仪。
    • 一台彩色打印机。
      对象组件“激光单元A4587-AD78”被分配给了该组件。
  • Room B01
    该组件有以下低级别组件:
    • 一台复印机的对象组件。
    • 一台打印服务器的IBase。

 

参考阅读:What is IBase?

 

 

本文介绍了SAP Solution Manager中的变更请求管理工具(Change Request Management,以下简称ChaRM)。

最近打算写个上线前请求号检查工具,为此需要了解相关工具的工作方式。本文中的部分内容似乎前后有所出入,请自行判断。如有翻译错误请在评论指出。

 

本文链接:https://www.cnblogs.com/hhelibeb/p/9929331.html

英文原文:Basic Procedure for Change Management (ChaRM)

 

CHaRM是什么?

  • SAP ChaRM是一个包含在SAP Solution Manager内的工具,它可以实现对变更的从设计到测试到传输生产的过程管理。它允许你在整个业务解决方案中跟踪变更请求(CR)和传输请求(TR)。
  • SAP ChaRM使用基于工作流的审批来管理TR和解决方案蓝图中的功能变更。
  • ChaRM的project的帮助下,我们可以扩展TMS的功能,确保所有传输请求一起移动QA,将集成/回归测试作为整体进行,并将它们共同导入到生产系统。
  • 在某些方面不再需要电子表格(Excel),因为SAP Solution Manager Project会持续跟踪项目与传输请求的关联关系、以及传输请求的导入顺序。

前提

  1. 用合适的路径正确配置系统。
  2. Solution Manager和卫星系统间的RFC连接正常。
  3. 配置STMS。
  4. 定义系统间的传输路径。
  5. 激活TMS中的扩展传输控制。
  6. 取消激活质量保证审批程序(quality assurance approval procedure)、激活单一传输策略。

处理步骤

ChaRM涉及到项目中的以下机构,

  1. 请求者:认为配置变更和ABAP变更导致了错误的人。请求者会在Solution Manage中提出变更请求。
  2. 变更经理:负责决定和审批变更请求的人(原文"advisory board")。
  3. 开发者:根据每个变更请求来进行更改的人。他们可能是functional consultant和technical consultant。
  4. 测试者:测试团队(包含functional consultant和用户)。
  5. IT运维:Basis等。

步骤流程图如下,(注:图和下面的步骤描述似乎不一致,原图如此。个人认为下面的步骤描述更准确)

在Solution Manager CRM中的实际步骤如下,

我们在事务代码“SM_CRM”中得到了变更请求,需要在SAP中进行配置变更。这是我们从服务台得到的配置方面的一些变更事件(Incident)。

创建事件的时候,我们需要把状态变更为“Suspended”状态,或者根据配置设置为其它状态

获取suspended状态的问题清单,并且为变更创建请求。

前往Solution Manager的事务代码“SM_CRM”。点击下图中的Request for Change来创建CR。

当你点击"Request for Change"后,系统会展示如下界面,

在该界面中,输入

  1. Description:细节描述。
  2. Sold to Party:选择提出变更的人的名字。
  3. Requester:会自动出现。是创建CR的用户名。
  4. Approval Procedure:选择Change Request Approval Procedure。
  5. Priority:选择CR优先级。
  6. Project:输入项目名。

系统状态是自动设定的,我们不能手工修改。

在下方输入细节描述。也可以上传文档。

 

 输入请求的修改范围,

这里我们选择600 client,配置条目是"7100000058"。

保存。

现在请求者(Requester)应前往CR,使用工具栏的action按钮,设置状态为"Validation"。

保存,系统会显示单据状态为Validation

请求者完成了确认,现在他可以把请求提交审批了。在Action处选择"Release for Approval"。

保存后,状态会变为"To be approved",如下图。

变更经理(Change Manager)开始工作,他会检查请求,并按下面的操作审批。

变更经理会把状态设置为"Approved"或其它状态。

假设他选择了"Approved"并保存了请求。

现在请求者会看到审批过的请求。请求应该被发布为开发中状态,

保存,状态显示审批后的请求已经进入了处理中的状态。如果CR和ABAP开发相关,那么请求附件中需要包含FS文件。

可以看到状态是"Being Implemented".

当我们保存状态为"Being Implemented"的CR的时候,系统会生成一个change note号码,

前往变更对象,内容如下。当前的处理着可以填写下面的内容,

Developer:处理者将会填写这项,指定将会进行开发或配置的人。

Tester:将会在配置变更/开发完成后测试的人。

IT Operator:业务端的测试者或者是负责将请求传输到测试和生产系统的人。(注:原文如此)

变更问题的状态为"In Development",并保存。

在这步之后,请求会被传输到测试系统,相关人员进行测试。

优势

  1. SAP ChaRM允许组织有效地控制和管理SAP系统中的更改。
  2. 通过实现对某些点的强制控制和文档化的步骤,它保可以证对SAP系统的任何更改都遵循标准流程和程序。
  3. 提供跟踪和审计变更的能力。
  4. 通过配置CTS +,ChaRM可扩展到项目中的所有ABAP和非ABAP SAP环境。
  5. ChaRM不仅仅是对传输的技术管理工具,它还是一个功能强大的项目变更跟踪系统。它提供以下功能:
  6. 提供对需求和变更请求的可追溯性。
  7. 通过利用工作流来表示针对每个变更请求采取的行动。
  8. 报告和跟踪各个变更请求的状态和整个项目的状态。
  9. 为变更管理审计提供审批跟踪。
  10. 基于项目阶段,为传输请求提供防护。比如:如果某项目正处于测试阶段,尝试传输相关内容至生产的话,会遇到错误消息:“你不能在当前传输某项目的任何请求”。

 

本文是产品与对象相关的部分SAP文档的翻译,不包含配置部分。

本文链接:https://www.cnblogs.com/hhelibeb/p/10112723.html

1,对象(Objects)

对象是全局唯一的有形或无形对象,公司销售它或为它提供服务。对象通常是继承自产品的特定单一单元。然而,不像产品,对象是唯一的。这意味着虽然可能有相似的对象,但至少有一个描述对象的属性是不同的。这通常是它的标识符。比如说,车子会有自己的号码牌。

对象构成的唯一实体是公司和相关方间业务的中心。例如,一家电力供应商,可以使用对象描述他们输电的位置,比如“建筑”或“住房”。

对象被集成在产品主数据中,提供给你用于在业务处理中创建、跟踪所需信息的工具。产品主数据提供了检索对象相关信息的中心源。

对象数据包含了特定业务处理需要的信息(例如客户调查,销售订单,服务处理,合同),以及其它在本质上描述或分类对象的基本数据。比如:

  • 描述性数据,比如尺寸和数量
  • 具备控制功能的数据,比如决定销售订单中的每个项目分类的项目分类组。

这一信息存储在单独的产品主数据记录中。相关数据集合在一个单一的数据库对象中,这样可以避免存储冗余数据。

以下是对象所具备的特点,

产品类型(Product Types

产品类型描述对象的基本特性,它也决定可以分配到对象的分类,从而决定对象的特性和它被使用的方式。(Only the product type Materialcan be used for objects.)。产品类型包含以下几种,

  • 物料

  • 服务

  • 保修

  • 金融

  • 金融服务

  • 知识产权(IP)

对象族(Object Family

每个对象都属于一个对象族。对象族是基于对象属性的分组。创建对象时,必须为其分配对象族。

属性和集类型(Attributes and Set Types)

属性用于描述被划分为相同的集类型的对象。集类型的使用提供了在系统中为对象详细建模的能力。

分类和层次(Categories and Hierarchies

分类和层次用于实现结构化,并且允许你将对象按照不同的条件分组。分类定义了允许被分配给对象的集类型和关系类型,从而允许你通过分配分类来将对象的信息按需要结构化。

关系(Relationships

可以在对象间、产品间和产品与对象间创建关系,来表示特定的产品信息。例如组件,计数器,保修,资质要求等。

参考产品(Reference Products

可以参考参考产品的技术和业务数据。

备选ID(Alternative IDs

可以在产品主数据中定义备选ID,并且在业务处理中使用它们而不是对象ID。备选ID允许你在业务处理过程中使用满足行业标准的标识符,比如车辆识别号(VIN),序列号,ISBN。

例子:

2,集类型和属性

属性用于描述产品,集类型是产品的组。它们作为数据库表存储在系统中。

注意:在本节中,“产品”既指产品,也指对象。

集类型允许将数据字段组分配给产品,通过这样的方式可以为产品在系统中详细建模。

集类型和属性需要和产品层次、产品分类同时使用。这些元素的结合使相关的集类型可以在产品页被使用,从而描述产品。

结构

集类型被分配给分类,而不是直接分配给产品。通过将集类型分配给分类,相应地把分类分配给产品,你可以按需要提供描述产品的数据。

机制如下,

标准集类型

集类型可以是为了满足专门需求的自定义集类型,也可以是SAP标准的集类型。SAP提供了以下标准集类型,

通用集类型,

Technical Name

Description

COMM_PR_SHTEXT

描述

COMM_PR_UNIT

计量单位

COMM_PR_LGTEXT, COMM_PR_LGTEXT1, COMM_PR_LGTEXT2

Notes/Sales Notes

CRMM_PR_SALESA

销售:控制字段,数量

CRMM_PR_SALESG

销售:分组

CRMM_PR_TAX

物料集类型,

Technical Name

Description

COMM_PR_MAT

物料基本数据

COMM_PR_GTIN

全球贸易项目号

CRM_PR_RESIDVL

金融相关属性

服务集类型

Technical Name

Description

CRMM_PR_BTR

事务控制字段

CRMM_PR_SRVDUR

工作期间

CRMM_PR_SRVRR

资源需求

CRMM_PR_SRVENT

服务合同默认值

SERVICEPLAN

服务计划

CRM_SERIALNUM

服务中的序列号处理

保修集类型

CRMM_PRWTY

保修

CRMM_PRWTY_CAT

保修分类数据

CRMM_PRWTY_SRV

保修服务

CRMM_PRWTY_CNT

保修次数数据

其它产品类型的集类型

Product Type

Set Types

Financing

金融集类型

Financial Service

金融服务产品集类型

Intellectual Property Management

知识产权管理集类型

3,产品层次

产品层次提供了一种结构化的机制,可以用于在产品主数据内建模。

注意:在本节中,“产品”既指产品,也指对象。

产品层次包含用于根据不同条件将产品分组的分类。层次的目的取决于你的公司的需求和业务标准。

层次可以是多级的,用来实现控制和信息方面的功能。

结构

层次内的分类是分层排列的。所有低层分类继承高层分类的产品类型和集类型。可以为低层分类分配附加的集类型。

例子如下(注意下面的集类型不是标准的,只是个自定义的例子):

如果一个产品类型被分配到分类,只有这个产品类型的产品可以被分配给分类。分配产品类型给分类使得可以将集类型分配给分类。集类型可以在产品或对象页面作为assignment block出现。

为了防止一个集类型被多次基于分类分配给同一个产品,在设定分类和层次时需要按以下原则进行:

  • 一个集类型可以在同一个层次中被分配给多个分类,但是每个产品类型只能有一个层次。因此即使两个分类在不同的层次中、但是有相同的产品类型,也是无法将同时集类型分配给两个分类的。
  • 一个产品可以被分配给多个分类,只要分类属于不同的层次。因此产品在各个层次中都只能分配给一个分类。

 

相关链接:SAP Document

 

最近工作用到Spark,这里记一些自己接触到的Spark基本概念和知识。

本文链接:https://www.cnblogs.com/hhelibeb/p/10288915.html

名词

RDD:在高层,每个Spark应用包含一个driver程序,它运行用户的主函数,在集群上执行不同的并行作业。Spark中提供的主要抽象是弹性分布式数据集(resilient distributed dataset, RDD),它是分布在集群节点中的已分区的元素集合,可以被并行处理。RDD从Hadoop文件系统中的文件创建,或者从驱动程序中已有的Scala集创建。用户也可以要求Spark将RDD持久化在内存中,允许它在并行操作中被高效地复用。最后,RDD可以从节点故障中自动恢复。

Spark SQL:一个用于处理结构化数据的Spark模块。和RDD API不同,Spark SQL提供的接口会提供给Spark关于数据的结构和计算的更多信息。在内部,Spark SQL使用额外的信息来执行额外优化。有许多方式可以与Spark SQL交互,包含SQL和Dataset API。在进行计算时,无论使用哪种API/编程语言,都会使用相同的执行引擎。这意味着开发者可以基于数据变换的需要来自由切换不同的API。

Dataset:Dataset是分布式的数据集合。Dataset是Spark 1.6中新加入的接口,提供了RDD的优势(强类型化,应用lambda函数的能力),也提供了Spark SQL的优化执行引擎的优势。Dataset可以由JVM对象构造,然后通过函数变换(map, flatMap, filter等)来操纵。Dataset API在Scala和Java中可用。Python不支持Dataset API,但是由于Python的动态性,已经可以享受许多Dataset API的好处。(例如你可以通过row.columnName的方式自然地访问行中的字段)。R语言的情形与之类似。

DataFrame:DataFrame是一种有列名的Dataset。它在概念上等于关系数据库中的表或者R/Python中的数据帧,但是在底层有更多的优化。DataFrame可以从一个多重源构造,比如:结构化数据文件、Hive中的表、外部数据库或者既有的RDD。DataFrame API在Scala、Java、Python和R中可用。在Scala和Java,DataFrame被表示为多行Dataset。在Scala API中,Dataframe可以简单地表示为Dataset[Row]。而在Java API中,用户需要使用Dataset<Row>来表示Dataframe。

 

TempView:createOrReplaceTempView方法会创建(如果已存在同名视图的话,则替换)一个惰性计算视图,你可以将这个视图视作hive表来使用。除非你将Dataset缓存,否则它不会持久化到内存中。可以使用spark.catalog.dropTempView("tempViewName")来删除视图。

Caching and Persistence:缓存或持久化是Spark计算的优化技术。 它们有助于保存临时部分结果,以便可以在后续阶段重复使用。 因此,RDD的这些中间结果保存在内存(默认)或固态存储(如磁盘和/或复制)中。

SparkSession:Spark SQL的入口点。在开发Spark SQL应用时,这是首先要创建的对象之一。

你可以使用SparkSession.builder方法来创建SparkSession。

importorg.apache.spark.sql.SparkSession
val spark
=SparkSession.builder
.appName(
"My Spark Application") // optional and will be autogenerated if notspecified
.master(
"local[*]") // only for demo and testing purposes, use spark-submit instead
.enableHiveSupport()
// self-explanatory, isn't it? .config("spark.sql.warehouse.dir", "target/spark-warehouse")
.withExtensions { extensions
=>extensions.injectResolutionRule { session=>...
}
extensions.injectOptimizerRule { session
=>...
}
}
.getOrCreate