常见问题 talend面试问题和答案如下.
TAREND是最强大的ETL工具之一,包含不同产品,如
它是在开源和高级版本中提供的.
talend用于统一存储库以存储和重用元数据.
Talend的第一个产品是 Talend Open Studio,在 2006,和最新版本的Talend Open Studio是 v7.0.1 Talend开放式工作室是一个基于Eclipse的开发人员工具和作业设计器工具.
Talend Open Studio用于与 excel,rdbms,saaS,和大数据生态系统和技术如 crm,sap和Excel等数据源连接,等等.
Talend是用 java 编程语言编写的.
以下是Talend开放工作室的优势:
我们可以通过Talend Open Studio的帮助,轻松管理涉及ETL过程中涉及的所有步骤.
Talend Open Studio充当代码生成器,可自动将所有基础作业转换为Java代码.
它用于更新和转换各种来源中存在的数据.
Talend开放式工作室是开源;这就是为什么它是免费的和显着的节省成本.
Talend数据集成是一个开源测试工具,它允许 etl(提取,传输和加载)测试,包括ELT测试的所有功能.
数据集成是具有开放式,可扩展的架构的工具,它还允许对业务请求的响应更快.
用户可以使用Talend数据集成工具在具有不同操作系统的远程服务器上执行ETL任务.
Talend为数据集成的开放式工作室和大数据平台.
并且,TAREND数据集成和TAREND大数据之间的主要区别是数据集成仅生产 java代码,和大数据生成 mapreduce 以及Java代码.
Talend Studio中的多种连接如下:
行
迭代
触发
链接
行:行连接器用于维护实际数据流;以下一些行连接器如下:
主要,查找,过滤器,拒绝,错误,输出,唯一/重复,多个输入/输出等.
迭代:迭代用于对包含在文件中包含的文件的循环,文件中可用的行或迭代连接器完成的数据库条目.它主要用于连接流动的星组分(在子区域中).
触发:触发连接器用于在作业和子设备之间创建依赖性.
TAREND有两种类型的触发器:
subjob触发:
onsubjok
onsubjoberror
运行如果
组件触发器:
oncomponentok
oncomponenterror
运行如果
链接:链接连接器仅使用ETL组件使用.这种类型的连接不处理实际数据,而是仅处理操作表的元数据.
onsubjobok和oncomponentok之间的差异如下:
OnSubjobOK | OnComponentOK |
---|---|
它用于在子作业完成且没有任何错误的情况下触发下一个子作业。 | 这种类型的连接用于在源组件执行完成且没有任何错误的情况下触发目标组件。 |
它是 Subjob 触发器的一部分。 | 它是组件触发器的一部分。 |
Talend 支持多种模式,如下所示:
固定架构:固定架构是只读架构。 对于某些组件,它内置在 Talend 中。
存储库模式:我们可以重用存储库模式,或者如果我们对模式进行了一些更改,它会自动影响所有作业。
通用模式:如果没有任何特定元数据符合我们的需要,或者如果我们没有任何其他源文件来获取模式,我们可以创建通用模式。
ETL 代表提取、转换和加载。 ETL是数据仓库中的一个过程,即从源系统中提取数据并将其存储在数据仓库中。
提炼:
我们从源系统中提取数据,它主要用于从源系统中检索所有需要的数据,源系统可以是RDBMS、ERP和CRM。
转型:
转换用于将提取的数据加载到目标数据库中。
加载:
提取的数据和转换后的数据被加载到目标数据库。
ETL和ELT的区别如下:
ETL | ELT |
---|---|
ELT 代表提取、加载和转换。 | |
ETL 过程首先提取数据,然后在将其加载到数据库之前进行转换。 | 在 ELT 过程中,首先提取数据,然后将其加载到数据库中,然后对其进行转换。 |
ETL 过程支持关系数据。 | ELT 流程支持非结构化数据。 |
ETL 用于将数据从源数据库传输到目标数据仓库。 | ELT是数据库中的一个数据操作过程,主要用于数据仓库。 |
Talend open studio 工具栏中的多个项目列表如下:
Save: 保存按钮用于保存当前的作业设计。
Find a Specific Job: 此按钮用于显示相关对话框,使我们能够打开 Repository 面板中列出的任何 Job。
Run job: 运行作业按钮用于执行作业,该作业当前显示在设计工作区窗口中。
Create: 此按钮用于启动相关的创建窗口。 而且,我们可以创建任何存储库项目,例如业务模型、工作设计、上下文、例程和元数据。
Project settings: 项目设置按钮帮助我们启动[项目设置]对话框。 借助此对话框,我们可以为当前项目添加描述,还可以自定义 Palette 显示。
Detect and update all jobs: 此图标用于搜索可用于我们工作的所有更新。
Export Talend project: 它用于启动 [Export Talend projects] 窗口。
Export Items: 导出项目按钮用于将存储库项目导出到存档文件并检查源文件是否包含在存档中。
Import Items: 导入项目按钮用于将存储库项目从存档文件导入我们当前的 Talend Studio。
Talend Studio 的主窗口中提供了四种不同的功能,如下所示:
存储库
设计工作区
组件调色板
配置选项卡
存储库是 Talend Studio 收集与用于设计作业的技术项目相关的数据的地方,我们还可以在这里创建和管理元数据。
Repository 面板包含业务模型、作业设计、元数据、文档、SQL 模板和回收站等。
元数据是文件的集合,其中包含我们希望在各种作业中重用的冗余信息,例如模式和属性数据。
如果我们要开发任何项目,我们可以通过将对象从存储库拖放到设计工作区窗口来在工作中使用元数据。
元数据包含许多来源,例如数据库连接、Azure、LDAP、Marketo、Salesforce、Web 服务、Hadoop 集群、FTP 等不同类型的文件,Talend Metadata Repository 下提供了多种选项
Repository 和 Built-in 的区别如下:
Repository | Built-in |
---|---|
在存储库中,存储了所有信息。 | 在Built-in,所有数据都存储在作业中。 |
在存储库中,我们可以访问作业中的只读信息。 | 我们可以手动输入所有数据。 |
它更改存储库中的数据。 | 它将数据从存储库更改为内置并编辑内置数据。 |
tMap 是一个高级组件,它允许我们执行连接操作、列或行过滤以及多个输出。
tMap 组件用于将数据从单个或多个源转换和路由到单个或多个目的地。
tMap组件支持多种join和joins模型,具体如下:
连接:内连接、左连接
联接模型:唯一联接、先联接和全部联接等。
tReplicate 组件将传入的模式复制到两个相似的输出流中。 它允许我们对同一个模式执行不同的操作。 tReplicate 组件用于根据需要多次复制行。
调色板面板具有不同的技术组件,我们可以使用它们来构建我们的工作。
MDM [主数据管理] 将所有主数据放入一个文件中。 它用于将实时数据、应用程序和集成流程与固定的数据质量相结合,以便在本地、云和移动应用程序之间共享。
这是我们可以设计工作的布局。 我们可以访问设计器选项卡和代码选项卡,其中设计器选项卡以图形方式显示作业,代码选项卡显示生成的代码并识别可能的错误。
配置选项卡在设计工作区窗口中显示所选元素的属性。 并且可以编辑这些属性以更改和设置与特定组件或作业相关的参数,并且运行选项卡用于执行我们的作业。
例程是可重用的 Java 代码片段。 它使我们能够用 Java 编写自定义代码,以提高作业容量、优化数据处理并扩展 Talend Studio 功能。
Talend Studio 中有两种类型的例程可用,如下所示:
系统例程
用户例程
系统例程:Talend 提供了很多系统例程,基于字符串、日期、数值等数据类型的流程,这些例程是只读的,我们可以在 Talend 作业中直接调用它们。
用户例程:我们可以创建新的用户例程或适应现有的例程。
Talend Studio 允许使用一系列 SQL 模板来简化最常见的任务。 它还包含允许我们自定义或设计 SQL 模板的 SQL 编辑器。
SQL 模板与 Talend ELT 组件中的组件一起使用,这些组件具有 tSQLTemplate、tSQLTemplateFilterColumns、tSQLTemplateRollback、tSQLTemplateCommit、tSQLTemplateAggregate、tSQLTemplateFilterRows 和 tSQLTemplateMerge,这些组件执行选定的 SQL 语句。
借助这些 SQL 模板,我们可以根据结构要求存储和检索数据,从而提高 DBMS [数据库管理系统] 的效率。
tJoin 组件用于执行主数据流和查找流之间的内连接和外连接,该组件帮助我们确保任何源数据相对于参考数据源的数据质量。
tLogRow 组件用于在运行控制台窗口中显示数据或结果。 它主要用于监控处理的数据。
tSortRow 组件用于根据一列或多列按排序类型和顺序对输入数据进行排序。
tSortRow 组件的主要目标是帮助我们创建表的度量和分类。
tLoqateAddressRow 组件用于将地址数据与参考数据进行比较,以确保其正确和完整。 如果需要任何更改,我们可以更正拼写,添加缺少的地址数据,如城市、城市区域、邮政编码或地区以及任何其他相关数据。
tXMLMap 组件用于将数据从单个或多个源转换和路由到单个或多个目的地。
组件是用于执行特定数据集成操作的预配置连接器。 它可以最大限度地减少处理来自各种异构源的数据所需的手动编码量。
本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend_interview_questions.html
8 talend
18 talend
12 talend talend-mdm
10 performance etl talend
16 talend
14 talend