在本节中,我们将学习如何将XML文件元数据集中在Talend Studio中的数据集成平台.
在本章进一步前进之前,我们将理解为什么我们将使用XML文件.
可用于定义输入和输出连接的属性,如 tfileinputxml 和 textractxmlfield 用于创建输入连接以读取XML文件的组件.
tadvancedfileoutputxml 组件用于在输出模式中创建写入或更新XML文件.
如果我们想连接到XML文件,我们将集中到存储库中的连接和架构信息以进行可重用性.
从开头创建XML文件连接:
转到存储库面板.
存储库→元数据→文件XML→创建文件XML
在本节中,我们将了解如何描述文件连接并上传输入文件的XML模式.
然后新XML文件窗口将打开文件连接和模式定义,其中五个步骤:
定义一般属性
设置元数据类型(输入)
上传xml文件
定义架构
最终确定结束架构
步骤1:定义常规属性
在第一步中,我们将定义模式的常规属性.
在新的XML文件窗口中,填充所有必要的详细信息,如姓名,目的和描述.
我们还可以管理项目设置对话框中存储库项目的版本和 status 字段.
单击路径字段旁边的 select 按钮以选择文件XML 节点下的文件夹以保存新创建的文件连接.
填充常规属性的所有细节后,单击 next 按钮以选择元数据的类型.
步骤2:设置元数据类型(输入)
现在,在此步骤中,我们将使元数据设置为输入或输出.
在下面的对话框中,选择输入xml 以创建XML元数据.
,单击下一个按钮继续进行.
步骤3:上传XML文件
在下一步中,我们将上传XML文件.
要上传XML文件,请按照以下进程:
单击浏览按钮并浏览我们的目录以从我们本地系统上传XML文件.
例如,我们将从我们的系统中选择 xml 文件.
<employeeDeatils> <employee> <empid>101</empid> <firstName>Naina</firstName> <lastName>Rai</lastName> <company>Talend</company> <city>Mumbai</city> <phone>5554</phone> </employee> <employee> <empid>102</empid> <firstName>Kapil</firstName> <lastName>Singh</lastName> <company>Talend</company> <city>Kanpur</city> <phone>9900</phone> </employee> …... </employeeDeatils>
如果系统没有自动找到它,我们也可以根据我们的文件格式更改编码类型。
Limit 字段用于输入要在其上执行 XPath 查询的列数,或者我们可以将 0 设置为针对所有列运行它。
Schema Viewer 部分用于显示 XML 结构的预览。 我们可以展开并查看文件的 XML 树结构的每一层,如下图所示:
之后,单击"下一步"按钮进行进一步处理。
第 4 步:定义架构
在这一步中,我们将定义解析作业的设置。
如下图所示,我们有四个部分可以定义模式:
Source schema: 它显示 XML 文件的树视图。
Target Schema: 它显示了提取和迭代信息。
Preview: 它以定义的顺序一起显示目标模式的预览和选定列的输入数据。
File Viewer: 它显示 XML 文件的预览。
要定义文件参数,首先,我们将定义 XPath 循环和循环可以运行的最大次数。
有两种方法可以生成 Xpath 循环表达式字段,具有绝对 Xpath 表达式。
第一: 输入要强调的节点的绝对 Xpath 表达式。
第二: 将节点从源模式拖放到目标模式下的绝对 Xpath 表达式字段中。
橙色箭头表示节点和相应表达式之间的连接。
循环限制字段用于定义所选节点可以迭代的最大次数,如果我们想针对所有行运行它,则为 -1。
我们可以通过按 Ctrl 或 Shift 键并单击节点来选择多个节点以拖放到表上。
蓝色箭头表示选定节点从源模式到要提取的字段的链接,未选定的节点用灰色表示。
我们可以在字段中添加许多列来提取表以进行提取或删除列并在工具栏的帮助下更改列的顺序。
要添加列,请单击 [+] 按钮,要删除列,请单击工具栏上的 [X] 按钮。
要更改列的顺序,请使用工具栏中的向上和向下箭头按钮,如下图所示:
要查看目标的预览,请单击刷新预览按钮,如下图所示:
并且,要验证和编辑最终架构,请单击下一步
第 5 步:完成最终模式
在最后一步中,我们将最终确定最终模式。
要自定义 File 架构,请检查 Type 列中的数据类型是否正确。
Guess 按钮用于更新和恢复 XML 文件模式。
之后,单击"完成"按钮完成该过程,如下图所示:
要在 Talend Studio 中查看新创建的元数据:
转到存储库面板,然后转到元数据。
之后,展开 File XML 节点,并选择 New_XML_input 元数据,如下图所示:
存储库 -> 元数据 -> 文件 XML -> New_XML_input
要将元数据重新用作新组件或现有组件,只需将文件连接或模式从存储库的元数据节点拖放到设计工作区窗口即可。
修改现有文件连接:
转到存储库面板,然后转到元数据节点。
之后,展开 File XML,右键单击 New_XML_input 模式并选择 Edit File XML,如下图所示:
要将新架构添加到现有文件连接:
转到 Repository 面板,然后右键单击 File xml。
从 Metadata 的弹出菜单中选择 Retrieve Schema,如下图所示:
在本节中,我们将了解如何描述文件连接并为输出文件上传 XML 模式。
然后将打开新建 XML 文件窗口,其中文件连接和模式定义分五个步骤完成:
定义常规属性
设置元数据类型(输入)
上传 XML 文件
定义架构
最终确定 End 模式
第 1 步:定义一般属性
在第一步中,我们将定义模式的一般属性。
填写必要的详细信息,例如名称、用途和描述。
我们还可以在项目设置对话框中管理 Repository 项的版本和状态字段。
单击 Path 字段旁边的 Select 按钮,在 File XML 节点下选择一个文件夹来保存我们新创建的文件连接。
填写完一般属性的所有详细信息后,单击"下一步"按钮选择元数据类型,如下图所示:
第 2 步:设置元数据的类型(输出)
现在,我们将元数据的类型设置为输出。
在下面的对话框中,选择输出 XML 以创建 XML 元数据。
并且,单击"下一步"按钮继续进行。
第 3 步:定义输出文件
在下一步中,我们将定义输出文件。
要定义输出文件,我们将选择手动创建文件或从现有 XML 或 XSD 文件创建文件。
如果我们选择手动创建选项,我们将不得不自己配置我们的模式、源和目标列。
并且该文件将在 XML 输出组件的帮助下在作业中创建,例如
要从 Xml 文件创建输出 XML 结构,请遵循以下过程:
在输出设置区域,选择从文件创建
单击与 XML 或 XSD 文件字段对应的 Browse 按钮,从我们的本地系统浏览 XML 文件的路径并双击该文件。
例如,我们将从我们的系统中选择 carr.xml 文件。
如果系统没有自动找到它,我们也可以根据我们的文件格式更改编码类型。
Limit 字段用于输入要执行 Xpath 查询的列数,或者我们可以输入 0 以针对所有列运行它。
File Viewer 部分显示 XML 结构的预览,File Content 部分用于显示文件前 50 行的最大值。
之后,在输出文件路径区域,我们可以在输出文件中浏览输出文件的路径。 或者如果文件已经存在,它将被覆盖。
单击下一步按钮以进一步处理。
第 4 步:定义架构
在这一步中,我们将定义模式。
在上述步骤中定义好输出文件后,Linker Source 部分会自动映射到 Linker Target Section 中的相关部分,用蓝色箭头链接表示。
要定义输出模式,我们有以下选项来执行:
在 Linker Source 部分,我们可以通过单击 Schema Management 按钮从头创建一个模式,它将打开模式编辑器以编辑源模式并传递输出模式。
在 Linker Target 部分,右键单击要运行循环的元素,然后从弹出菜单中选择 Set As Loop Element,如下图所示:
我们可以在 Ctrl + Shift 键的帮助下一次选择和删除多个字段并进行各种选择。
这使得映射速度更快,我们还可以通过右键单击操作进行各种选择,例如:
创建为目标节点的子元素
创建目标节点的属性
将链接器添加到目标节点
如下图所示,我们选择了第二个选项,创建目标节点的属性,然后单击 Ok 按钮。
并且,要验证和编辑最终模式,请单击"下一步"按钮。
第 5 步:完成最终模式
在最后一步中,我们将最终确定最终模式。
要自定义 XML 文件架构,请检查"类型"列中的数据类型是否正确。
Guess 按钮用于更新和恢复 XML 文件模式。
要添加列,请单击 [+] 按钮,要删除列,请单击工具栏上的 [X] 按钮。
要更改列的顺序,请使用工具栏中的向上和向下箭头按钮。
之后,单击"完成"按钮完成该过程,如下图所示:
要在 Talend Studio 中查看新创建的元数据:
转到存储库面板,然后转到元数据。
之后,展开 File xml 节点,并选择 New_XML_output 元数据,如下面的截图所示:
Repository -> Metadata -> File xml -> New_XML_output
要将元数据重新用作新组件或现有组件,只需将文件连接或模式从存储库的元数据节点拖放到设计工作区窗口即可。
修改现有文件连接:
转到存储库面板,然后转到元数据节点。
之后,展开 File xml,右键单击 New_XML_output 模式并选择 Edit File xml,如下图所示:
要将新架构添加到现有文件连接:
转到 Repository 面板,然后右键单击 File xml 中的 new_XML_output 模式。
从 Metadata 的弹出菜单中选择 Retrieve Schema,如下图所示:
本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend_centralizing_xml_file_metadata.html
18 talend
32 talend
8 talend
10 talend talend-mdm
10 performance etl talend
6 talend