在本节中,我们将学习数据集成组件和连接器,在创建作业时使用.
连接器和组件执行TAREND中的所有操作,它提供800多个连接器,以及执行多个操作的组件.
组件在调色板面板中可用,有21个主要类别,属于组件.
通过在设计器面板中进行拖放,我们可以选择连接器,它会自动创建Java代码.
之后,保存TAREND代码并执行它.
我们正显示在下面的图像中的调色板面板中提供的组件列表,
上面的列表广泛用作Talend数据集成的
让我们查看Talend Studio中的数据集成的一些常用组件,
数据集成组件 | 描述 |
---|---|
tMysqlConnection | 它用于连接组件中定义的 MySQL 数据库。 |
tMysqlInput | 它用于运行数据库查询以读取数据库并根据查询提取字段(表、视图等)。 |
tMysqlOutput | 它用于写入、更新和修改 MySQL 数据库中的数据。 |
tFileInputDelimited | 它逐行读取分隔文件并将它们划分为单独的字段,并将其传递给下一个组件。 |
tFileOutputDelimited | 它用于根据定义的模式从分隔文件中的输入数据获取输出。 |
tFileInputExcel | 它逐行读取一个excel文件并将它们分成单独的字段,并将其传递给下一个组件。 |
tFileOutputExcel | 它用于根据定义的模式编写具有不同数据值的 MS Excel 文件。 |
tFileList | 它用于从给定的文件掩码模式中获取所有文件和目录。 |
tFileArchive | 它用于将一组文件或文件夹压缩为 zip、gzip 或 tar.gz 存档文件。 |
tRowGenerator | 它提供了一个编辑器,我们可以在其中编写函数或选择表达式来生成示例数据。 |
tMsgBox | 它返回一个对话框,其中包含指定的消息和一个确定按钮。 |
tLogRow | 它用于监视正在处理的数据。 它总是在运行控制台中显示数据/输出。 |
tPreJob | 它定义了在我们的实际工作开始之前将运行的子工作。 |
tMap | tMap 用于将数据从单个或多个源转换和路由到单个和多个目的地。 |
tJoin | 它用于通过在主要流程和查找流程之间执行内部和外部联接来联接两个表。 |
tJava | 它使您能够在 Talend 程序中使用个性化的 Java 代码。 |
tRunJob | 它用于通过一个接一个地运行 Talend 作业来管理复杂的作业系统。 |
tCloudStart | 它用于在 AmazonEC2(Amazon Elastic Compute Cloud)上启动实例 |
tCloudStop | 用于更改 Amazon EC2(Amazon Elastic Compute Cloud)上已启动实例的状态 |
tDotNETInstantiate | 它用于调用 .NET 对象的构造函数,供以后重用。 |
tDotNETRow | 它可以帮助我们利用自定义或内置的 .NET 类来转换数据。 |
tDB2Connection | 用于在指定的数据库中打开一个连接,可以在后续的一个或多个子作业中重复使用。 |
tFileFetch | 它用于通过给定协议(HTTP、HTTPS、FTP 或 SMB)检索文件。 |
tFTPClose | 它可以帮助我们关闭一个活跃的 FTP 连接以释放占用的资源。 |
tFTPConnection | 它用于打开 FTP 连接以在单个事务中传输文件。 |
tFTPDelete | 用于删除FTP服务器上指定目录下的文件或文件夹。 |
tFileInputJSON | 它用于从文件中提取 JSON 数据并将数据传输到文件、数据库表等。 |
tFileOutputJSON | 它帮助我们接收数据并将其重写为输出文件中的 JSON 结构化数据块。 |
tFileInputXML | 它逐行读取与 XML 结构相关的文件,并将它们分解为字段并发送这些字段,这些字段在下一个组件的架构中定义。 |
tFileOutputXML | 它根据定义的模式写入具有分隔数据值的 XML 文件。 |
tReplicate | 它用于将传入模式复制到两个相同的输出流中。 |
Row
Iterate
Triggers
Link
行连接器用于维护实际的数据流,以下一些行连接器如下所示,
Main
Lookup
Filter
Rejects
ErrorRejects
Output
Unique/duplicates
Multiple input/output
Main:
最常用的行连接是 Main,因为它有助于将数据流从一个组件传递到另一个组件,并根据组件属性设置对每一行进行迭代或读取输入数据。
我们无法在主行连接的帮助下连接两个输入组件。
每个组件可以有一个传入 Row 连接,因为我们将无法使用 Main 行连接链接两次相同的目标组件。
第二行连接将被称为查找。
在主排连接的帮助下连接两个组件,
右键单击输入组件,然后选择行—> Main 在连接列表中,如下图所示,
或者,
我们可以点击组件高亮它,然后右键单击它或点击它侧面可见的O图标,然后将光标拖向目标组件,它会自动创建一个Row -> 主要连接类型。
Lookup:
当我们想要连接多个输入流时使用查找行连接。
它是主要流组件的子流组件,这意味着它允许接收多个传入流。
要连接查找行连接,右键单击需要更改的行,将打开一个弹出菜单,然后单击"将此连接设置为 Main",将查找行变为主行,如我们在 下图,
Filter:
过滤器行连接用于将 tFilterRow 组件专门连接到输出组件。 它用于收集与过滤条件匹配的数据。
Rejects:
Rejects 行连接用于将处理组件连接到输出组件。
它用于收集与过滤器不匹配或对预期输出无效的数据。
它还允许我们跟踪某些组件上由于类型错误、未定义的空值等原因而无法处理的数据。
当 Die on error 选项被禁用时,拒绝连接被启用。
ErrorRejects:
ErrorRejects 连接用于将 tMap 组件连接到输出组件。
当我们在 tMap 编辑器中清除 Die on Error 复选框时,它会启用,它会收集无法在某些组件上处理的数据。
Output:
输出行连接用于将 tMap 组件连接到一个或多个输出组件。
Unique/Duplicate:
唯一/重复行连接用于将 tUniqRow 连接到输出组件。
唯一行连接用于收集在传入流中首先找到的行,并且此唯一数据流被定向到相关的输出组件或另一个处理子作业。
Duplicate row 连接用于收集第一个相关行的可能重复项。
Multiple input/output:
这种类型的行连接用于通过各种输入和输出处理数据。
Combine:
组合行连接用于将一个组合 SQL 组件连接到另一个。
Iterate:
要对包含在目录中的文件执行循环,文件中可用的行或数据库条目由迭代连接器完成。
它主要用于连接流的星形组件(在子作业中)。
Triggers:
触发器连接器用于创建作业和子作业之间的依赖关系,它们根据触发器的性质一个接一个地触发。
Talend 中有两种类型的触发器可用:
子作业触发器
组件触发器
子作业触发器 | 描述 |
---|---|
OnSubjobOK | 它用于在子作业完成且没有任何错误的情况下触发下一个子作业。 |
OnSubjobError | 用于在第一个(主)子作业未正确完成时触发下一个子作业。 |
Run if | 满足条件时触发子作业或组件。 |
组件触发器 | 描述 |
---|---|
OnComponentOk | 这种类型的连接用于在源组件执行完成且没有任何错误的情况下触发目标组件。 |
OnComponentError | 只要在主作业中遇到错误,它将触发子作业或组件。 |
Link:
链接连接器仅用于 ETL 组件。 这种类型的连接不处理实际数据,而只处理涉及操作表的元数据。
本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend_data_integration_components_and_connectors.html
18 talend
8 talend
32 talend
16 talend
6 talend