编程入门菜鸟教程
  • 首页
  • 菜鸟自学教程
  • 在线工具
  • 编程实例
  • 代码片段
  • 开发速查
  • 技能测验
  • 搜索
TAREND教程 TAREND教程 Talend Open Studio Talend-Data集成 Talend数据集成架构 Talend数据集成功能 Talend 数据集成组件和连接器 TAREND - 项目(创建,导入,开放,删除,导出) 设计业务模型 Talend数据集成作业设计 Talend-管理作业 管理元数据 数据库连接 集中文件分隔元数据 集中位置元数据 集中XML文件元数据 集中Excel文件元数据 集中文件RegEx元数据 集中的FTP连接 tMap组件 使用MySQL数据库 Talend面试问题
  1. IT宝库
  2. 菜鸟教程
  3. 菜鸟入门教程
  4. 集中XML文件元数据
Hostwinds建站/上外网首选4刀/月起
最新ChatGPT超详细图文注册教程
无视版权/抗投诉VPS服务器首选
程序员月入过万副业-TikTok视频搬运
外贸/TikTok/油管运营等科学上外网
建站/找图/谷歌检索/翻译/娱乐必备
2022-07-17 19:39:15
Talend Talend元数据
教 程 目 录
上一篇: 集中位置元数据
下一篇:集中Excel文件元数据 

集中XML文件元数据

在本节中,我们将学习如何将XML文件元数据集中在Talend Studio中的数据集成平台.

在本章进一步前进之前,我们将理解为什么我们将使用XML文件.

可用于定义输入和输出连接的属性,如 tfileinputxml 和 textractxmlfield 用于创建输入连接以读取XML文件的组件.

tadvancedfileoutputxml 组件用于在输出模式中创建写入或更新XML文件.

如果我们想连接到XML文件,我们将集中到存储库中的连接和架构信息以进行可重用性.

从开头创建XML文件连接:

  • 转到存储库面板.

  • 然后展开 Metadata 并右键单击 File XML,然后在弹出菜单中选择 Create File XML 选项,如下图所示:

存储库→元数据→文件XML→创建文件XML

Centralizing XML File Metadata

注意:要在我们的作业中使用集中式XML文件,请转到其属性排版的必要组件的基本设置视图,作为打开文件元数据设置窗口的构建.

为输入文件设置XML元数据:

在本节中,我们将了解如何描述文件连接并上传输入文件的XML模式.

然后新XML文件窗口将打开文件连接和模式定义,其中五个步骤:

  • 定义一般属性

  • 设置元数据类型(输入)

  • 上传xml文件

  • 定义架构

  • 最终确定结束架构

步骤1:定义常规属性

在第一步中,我们将定义模式的常规属性.

在新的XML文件窗口中,填充所有必要的详细信息,如姓名,目的和描述.

我们还可以管理项目设置对话框中存储库项目的版本和 status 字段.

单击路径字段旁边的 select 按钮以选择文件XML 节点下的文件夹以保存新创建的文件连接.

填充常规属性的所有细节后,单击 next 按钮以选择元数据的类型.

Centralizing XML File Metadata

步骤2:设置元数据类型(输入)

现在,在此步骤中,我们将使元数据设置为输入或输出.

在下面的对话框中,选择输入xml 以创建XML元数据.

Centralizing XML File Metadata

,单击下一个按钮继续进行.

步骤3:上传XML文件

在下一步中,我们将上传XML文件.

要上传XML文件,请按照以下进程:

  • 单击浏览按钮并浏览我们的目录以从我们本地系统上传XML文件.

  • 例如,我们将从我们的系统中选择 xml 文件.

<employeeDeatils>  <employee>  <empid>101</empid>  <firstName>Naina</firstName>  <lastName>Rai</lastName>  <company>Talend</company>  <city>Mumbai</city>  <phone>5554</phone>  </employee>  <employee>  <empid>102</empid>  <firstName>Kapil</firstName>  <lastName>Singh</lastName>  <company>Talend</company>  <city>Kanpur</city>  <phone>9900</phone>  </employee>  &hellip;... </employeeDeatils>

  • 如果系统没有自动找到它,我们也可以根据我们的文件格式更改编码类型。

  • Limit 字段用于输入要在其上执行 XPath 查询的列数,或者我们可以将 0 设置为针对所有列运行它。

  • Schema Viewer 部分用于显示 XML 结构的预览。 我们可以展开并查看文件的 XML 树结构的每一层,如下图所示:

Centralizing XML File Metadata

  • 之后,单击"下一步"按钮进行进一步处理。

 

第 4 步:定义架构

在这一步中,我们将定义解析作业的设置。

如下图所示,我们有四个部分可以定义模式:

Source schema: 它显示 XML 文件的树视图。

Target Schema: 它显示了提取和迭代信息。

Preview: 它以定义的顺序一起显示目标模式的预览和选定列的输入数据。

File Viewer: 它显示 XML 文件的预览。

Centralizing XML File Metadata

  • 要定义文件参数,首先,我们将定义 XPath 循环和循环可以运行的最大次数。

  • 有两种方法可以生成 Xpath 循环表达式字段,具有绝对 Xpath 表达式。

第一: 输入要强调的节点的绝对 Xpath 表达式。

第二: 将节点从源模式拖放到目标模式下的绝对 Xpath 表达式字段中。

  • 橙色箭头表示节点和相应表达式之间的连接。

注意:Xpath 循环表达式是必填字段。

  • 循环限制字段用于定义所选节点可以迭代的最大次数,如果我们想针对所有行运行它,则为 -1。

  • 我们可以通过按 Ctrl 或 Shift 键并单击节点来选择多个节点以拖放到表上。

  • 蓝色箭头表示选定节点从源模式到要提取的字段的链接,未选定的节点用灰色表示。

  • 我们可以在字段中添加许多列来提取表以进行提取或删除列并在工具栏的帮助下更改列的顺序。

  • 要添加列,请单击 [+] 按钮,要删除列,请单击工具栏上的 [X] 按钮。

  • 要更改列的顺序,请使用工具栏中的向上和向下箭头按钮,如下图所示:

Centralizing XML File Metadata

  • 要查看目标的预览,请单击刷新预览按钮,如下图所示:

Centralizing XML File Metadata

注意:如果我们加载 XSD 文件,预览功能无效。

  • 并且,要验证和编辑最终架构,请单击下一步

第 5 步:完成最终模式

在最后一步中,我们将最终确定最终模式。

  • 要自定义 File 架构,请检查 Type 列中的数据类型是否正确。

  • Guess 按钮用于更新和恢复 XML 文件模式。

注意:如果我们有自定义模式,Guess 功能不会保留这些更改。

  • 之后,单击"完成"按钮完成该过程,如下图所示:

Centralizing XML File Metadata

要在 Talend Studio 中查看新创建的元数据:

  • 转到存储库面板,然后转到元数据。

  • 之后,展开 File XML 节点,并选择 New_XML_input 元数据,如下图所示:

存储库 -> 元数据 -> 文件 XML -> New_XML_input

Centralizing XML File Metadata

要将元数据重新用作新组件或现有组件,只需将文件连接或模式从存储库的元数据节点拖放到设计工作区窗口即可。

修改现有文件连接:

  • 转到存储库面板,然后转到元数据节点。

  • 之后,展开 File XML,右键单击 New_XML_input 模式并选择 Edit File XML,如下图所示:

Centralizing XML File Metadata

要将新架构添加到现有文件连接:

  • 转到 Repository 面板,然后右键单击 File xml。

  • 从 Metadata 的弹出菜单中选择 Retrieve Schema,如下图所示:

Centralizing XML File Metadata

为输出文件设置 XML 元数据:

在本节中,我们将了解如何描述文件连接并为输出文件上传 XML 模式。


然后将打开新建 XML 文件窗口,其中文件连接和模式定义分五个步骤完成:

  • 定义常规属性

  • 设置元数据类型(输入)

  • 上传 XML 文件

  • 定义架构

  • 最终确定 End 模式

第 1 步:定义一般属性

在第一步中,我们将定义模式的一般属性。

  • 填写必要的详细信息,例如名称、用途和描述。

  • 我们还可以在项目设置对话框中管理 Repository 项的版本和状态字段。

  • 单击 Path 字段旁边的 Select 按钮,在 File XML 节点下选择一个文件夹来保存我们新创建的文件连接。

  • 填写完一般属性的所有详细信息后,单击"下一步"按钮选择元数据类型,如下图所示:

Centralizing XML File Metadata

第 2 步:设置元数据的类型(输出)

现在,我们将元数据的类型设置为输出。

在下面的对话框中,选择输出 XML 以创建 XML 元数据。

Centralizing XML File Metadata

并且,单击"下一步"按钮继续进行。

第 3 步:定义输出文件

在下一步中,我们将定义输出文件。

  • 要定义输出文件,我们将选择手动创建文件或从现有 XML 或 XSD 文件创建文件。

  • 如果我们选择手动创建选项,我们将不得不自己配置我们的模式、源和目标列。

  • 并且该文件将在 XML 输出组件的帮助下在作业中创建,例如

要从 Xml 文件创建输出 XML 结构,请遵循以下过程:

  • 在输出设置区域,选择从文件创建

  • 单击与 XML 或 XSD 文件字段对应的 Browse 按钮,从我们的本地系统浏览 XML 文件的路径并双击该文件。

例如,我们将从我们的系统中选择 carr.xml 文件。

  • 如果系统没有自动找到它,我们也可以根据我们的文件格式更改编码类型。

  • Limit 字段用于输入要执行 Xpath 查询的列数,或者我们可以输入 0 以针对所有列运行它。

Centralizing XML File Metadata

  • File Viewer 部分显示 XML 结构的预览,File Content 部分用于显示文件前 50 行的最大值。

  • 之后,在输出文件路径区域,我们可以在输出文件中浏览输出文件的路径。 或者如果文件已经存在,它将被覆盖。

  • 单击下一步按钮以进一步处理。

第 4 步:定义架构

在这一步中,我们将定义模式。

  • 在上述步骤中定义好输出文件后,Linker Source 部分会自动映射到 Linker Target Section 中的相关部分,用蓝色箭头链接表示。

  • 要定义输出模式,我们有以下选项来执行:

  • 在 Linker Source 部分,我们可以通过单击 Schema Management 按钮从头创建一个模式,它将打开模式编辑器以编辑源模式并传递输出模式。

  • 在 Linker Target 部分,右键单击要运行循环的元素,然后从弹出菜单中选择 Set As Loop Element,如下图所示:

注意:这是定义要在其上运行循环的元素的强制选项。

Centralizing XML File Metadata

  • 我们可以在 Ctrl + Shift 键的帮助下一次选择和删除多个字段并进行各种选择。

这使得映射速度更快,我们还可以通过右键单击操作进行各种选择,例如:

  • 创建为目标节点的子元素

  • 创建目标节点的属性

  • 将链接器添加到目标节点

如下图所示,我们选择了第二个选项,创建目标节点的属性,然后单击 Ok 按钮。

Centralizing XML File Metadata

并且,要验证和编辑最终模式,请单击"下一步"按钮。

第 5 步:完成最终模式

在最后一步中,我们将最终确定最终模式。

  • 要自定义 XML 文件架构,请检查"类型"列中的数据类型是否正确。

  • Guess 按钮用于更新和恢复 XML 文件模式。

注意:如果我们有自定义模式,Guess 功能不会保留这些更改。

  • 要添加列,请单击 [+] 按钮,要删除列,请单击工具栏上的 [X] 按钮。

  • 要更改列的顺序,请使用工具栏中的向上和向下箭头按钮。

  • 之后,单击"完成"按钮完成该过程,如下图所示:

Centralizing XML File Metadata

要在 Talend Studio 中查看新创建的元数据:

  • 转到存储库面板,然后转到元数据。

  • 之后,展开 File xml 节点,并选择 New_XML_output 元数据,如下面的截图所示:

Repository -> Metadata -> File xml -> New_XML_output

Centralizing XML File Metadata

要将元数据重新用作新组件或现有组件,只需将文件连接或模式从存储库的元数据节点拖放到设计工作区窗口即可。

修改现有文件连接:

  • 转到存储库面板,然后转到元数据节点。

  • 之后,展开 File xml,右键单击 New_XML_output 模式并选择 Edit File xml,如下图所示:

Centralizing XML File Metadata

要将新架构添加到现有文件连接:

  • 转到 Repository 面板,然后右键单击 File xml 中的 new_XML_output 模式。

  • 从 Metadata 的弹出菜单中选择 Retrieve Schema,如下图所示:

Centralizing XML File Metadata




本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend_centralizing_xml_file_metadata.html


上一篇: 集中位置元数据
下一篇:集中Excel文件元数据 

相关教程

Talend教程
初学者的Talend教程 - 从基本到高级概念的简单简单步骤学习Talend,例子包括:简介,系统要...
Talend教程
SharePoint入门教程
SharePoint | SharePoint教程具有简介,SharePoint的SharePoin...
SharePoint入门教程
Informatica入门教程
Informatica教程是Informatica,Informatica架构,PowerCente...
Informatica入门教程
Chrome入门教程
什么是Google Chrome |谷歌浏览器| Chrome浏览器与Chrome有什么,允许闪存在...
Chrome入门教程
Keras入门教程
Keras教程|用Python与Keras,Keras后端,型号,功能API,汇集层,合并层,序列预...
Keras入门教程
Salesforce入门教程
Salesforce | Salesforce教程是Salesforce,CRM,架构,导航Sale...
Salesforce入门教程

相关问答

talend中的枢轴数据
我有一些我需要在talend中转移的数据.这是一个样本: brandname,metric,value A,xyz,2 B,xyz,2 A,abc,3 C,def,1 C,ghi,6 A,ghi,1 现在,我需要在公制列上枢转数据: brandname,abc,def,ghi,xyz A,3,null,1,2 B,null,null,null,2 C,null,1,6,null 目前,我正在使用tpivottocolumnsdelimimimimited将数据旋转到文件并从该文件中读取.但是,必须将数据存储在外部文件和回报上是混乱且不必要的开销. 有没有办法在不写入外部文件的情况下使用talend进行此操作?我尝试使用tdenformize,但据我了解,它将将行返回为1列,这不是我所需的.我还在talendexchange中寻找了一些第三方组件,但找不到任何有用的东西. 谢谢您的帮助. 解决方案 假设您的指标是固定的,则可以将其名称用作输出的列.执行枢轴的解决方案有两个部分:首先,将每个输入 - 行in的值转置到输出 - 行out和第二,A tAggregate中的A tMap中地图的输出行,根据布兰特. 对于TMAP,您必须像这样有条件地填充列,示例的示例名为" ABC": out.abc = "abc".equals(in.metr )

18 talend

使用TALEND转置数据
我有这种数据: 我需要使用talend将这些数据转载于这样的东西: 帮助您将不胜感激. 解决方案 dbh的建议确实可以起作用,但我没有尝试. 但是,我还有另一个解决方案,该解决方案不需要更改输入格式,并且不太复杂而无法实现.实际上,这项工作只有2个转换组件(TDENFARGALATE和TMAP). 工作看起来如下: 解释: 您的输入是从CSV文件读取的(可能是数据库或任何其他类型的输入) tDenoraligalizate组件将基于ID列(第1列)上的值(列2)的列值(第2列)构成范围,将字段与特定的定界符分离(";"在我的情况下),如2行所示. tmap:通过使用Java的String.split()方法将汇总的列分为多个列,并将结果数组扩展到多个列中. TMAP应该喜欢这样: 由于Talend不接受存储数组对象,因此请确保将拆分字符串存储在对象格式中.然后,将该对象施加到地图右侧的数组中. 该方法应该给您预期的结果. 重要: tnormize可能会使行洗牌,这意味着对于更大的输入,您可能会遇到未分类的输出.确保在需要时对其进行排序或使用TdenoralalizeStredrow. tnormize类似于聚合组件,这意味着它在处理前会扫描整个输入,这导致可能的性能问题特别大(数百万记录). 您的输入可能是错误的 )

32 talend

Talend,MongoDB连接
我面临Mongo DB连接的问题. 我已经成功地导入了tmongo组件,然后将其复制到lib/java文件夹中,我的mongo db作业成功运行了,但问题即使我提供了一些问题,即使我提供了一些问题,但我提供了一些问题.伪造的服务器路径(IP)和假货端口,我的工作正在运行,没有错误,这给了我1行而没有数据.右IP和端口也是如此. 我如何解决它. 解决方案 我认为连接不起作用.正如您必须知道的那样,MongoDB检查连接是否在执行查询时实际上是否有效. (是的,当您连接到它时,它不会检查成功的连接). 我建议通过遵循以下步骤来添加talend中存在的mongoDB组件: 为MongoDB提供的组件是: tmongodbinput,tmongodboutput,tmongodbconnection等 或者您可以从 http://www.talendforge.org/exchange/下载组件并搜索Mongo而不是使用TALEND大数据.但是我建议将talend用于大​​数据. 组件将被拉开,将其拉开相同.在talend大数据中,您会在组件文件夹中找到组件. 将这些未拉链的组件复制到TOS的安装路径. C:talendtos_di-win32-r84309v5.1.1pluginsorg.talend.designer.components.local )

8 talend

Talend中的常见日志
我试图在talend中实施登录.因此,我使用普通组件做了一份工作,我通过Twarn和TDIE记录了错误,信息和调试. 使用logcatcher,我将日志隔离为调试和错误的两个文件. 这部分工作正常. 现在我完成了两个工作, 首先: - 使用trowgenerator生成线,然后发送到tmap并从TMAP发送,我将根据某种条件发送到两个Twarn组件. 第二: - 具有tlogcatcher,t_filterrow并根据某种条件分离到两个文件的作业. 所以我正在与第一个捕获日志的工作并行运行第二个作业,但它不起作用. 我尝试了几个选项,并在这一点上卡住. 主要想法是拥有一个通用的记录组件,可以插入日志的任何作业. 有什么方法可以实现? 解决方案 以下是弹出的三种方式: log4j:企业版本内置了log4j,这意味着您可以在twarn/tdie中设置调试级别,并配置log4j将这些放置在不同的文件中. (当使用它时,我发现最好将警告作为我自己的信息级记录,因为Talends信息级别太深了.) 我敢肯定,log4j也可以成为开放式工作室的"黑客攻击".那将解决您的问题. 大麻:如果您喜欢当前的方式,我会为您看到2个选项.首先是尝试创建软糖,但是使用来自多个作业的同一文件不是一个好主意,可能会导致错误.这不是一个不错的解决方案,但是如 )

10 talend talend-mdm

Talend的性能
我们有一个要求,我们正在读取来自三个不同文件的数据并在同一作业中使用不同列的这些文件中进行加入. 每个文件大小约为25-30 GB.我们的系统RAM尺寸仅为16GB.与TMAP一起加入. Talend将所有参考数据保留在物理内存中.就我而言,我无法提供那么多的记忆.作业因记忆力不足而失败.如果我在TMAP中使用与Temp Disk选项一起使用,Job的速度很慢. 请帮助我解决这些问题. 如何处理大于RAM大小的数据? 管道并行性与塔伦德(Talend)建立?我缺少什么吗 在代码中以实现这一目标? tuniq&加入操作是在物理记忆中完成的,导致了作业 慢慢奔跑.磁盘选项可用于处理这些 功能,但是太慢了. 如何在不将数据推到DB(ELT)的情况下如何提高性能. 塔伦德是否可以在数百万中处理大量数据. 较少量的RAM的数据? 谢谢 解决方案 talend处理大量数据非常快速,有效.这一切都取决于您对TALEND平台的了解. 请考虑以下评论作为您的问题的答案. Q1.talend过程如何大于RAM大小? a.您无法将整个RAM用于Talend Studio.只有一小部分RAM可以使用其几乎一半的RAM. 例如: - 在64位系统上可用8 GB的内存,最佳设置可以是: -vmargs -XMS1024M -xmx409 )

10 performance etl talend

使用TALEND将数据从Excel导入SQL
我正在尝试从Excel导入数据.我已经与数据库建立了成功的连接,但是在试图检索模式时,我没有得到我的表格,而是拥有数据库的模式(键入目录). 如何获取将导出Excel数据的表格架构? 我已经对此视频进行了审查,以进行导入. http://www.youtube.com/watch?v=jdbyu9f1p-i 解决方案 您可以使用的是 )

6 talend

本站提供 编程入门菜鸟教程 | 在线实用工具 | 编程实例源码下载 | 源代码片段分享 | 编程技术问答 | 菜鸟自学教程 | 在线技能测验 等内容供大家免费学习和使用!

IT宝库 版权所有 京ICP备14011762号 · 站点地图 · 站点标签 · © 2016-2023 · 意见&反馈 SiteMap <免责申明> 本站内容来源互联网,如果侵犯您的权益请联系我们删除.
    • 代码
    • 登录
    • 注册
  • 首页
  • 教程
  • 工具
  • 实例
  • 速查
  • 测验
  • 繁 體
  • 联系站长