教 程 目 录
TAREND数据集成功能
Talend Open Studio分为不同的部件,每个部分都有其功能.我们有四个Talend Open Studio的各种组成部分,如下所示,

存储库:
存储库是与技术项目相关的Tarend开放工作室的位置,用于设计作业,创建作业或管理元数据请参阅下面的屏幕截图,

元数据:
元数据是存储库的重要组成部分,因为它具有有关数据的完整信息,可在Talend Studio中提供.
如果我们想开发任何项目,我们可以通过从存储库拖动对象来使用我们作业中的元数据,并将其删除到设计工作区窗口.
元数据包含许多来源,例如 db连接,不同类型的文件,如 alzure,ldap,marketo,salesforce,web服务,hadoop集群,ftp ,所以在TAREND元数据存储库下提供的选项,我们可以在以下图像中看到

设计工作区:
Talend Studio的下一个功能是 Design Workspace窗口,我们可以在哪里布局和设计作业,因为我们可以访问 designer选项卡,它以图形方式显示作业,以及代码选项卡,用于生成和识别可能的错误.
设计工作区包含两个字段,如下所示,

designer选项卡:
默认情况下,创建作业时,设计器选项卡将打开,从而在图形模式下显示作业.
代码选项卡:
代码选项卡有助于我们在代码的可视化中,并突出显示可能的语言错误.
组件调色板:
Talend Studio中可用的下一个功能是调色板,它用于包含构建作业的不同技术组件,并在家庭中分组.
组件调色板用于执行特定的数据集成操作,因为它是预配置的连接器.
并且,它还可以最小化手动编码量,这是从多个和异构源上工作所必需的.
以下图像表示Talend Studio中的调色板面板,

配置选项卡:
配置选项卡用于在设计工作区内显示和编辑特定组件的属性.
可以编辑这些属性以更改或设置与特定组件或整个作业相关的参数,并且运行选项卡用于执行我们的作业.

配置选项卡包含四部分,如下所示,
作业选项卡:
作业选项卡用于提供有关当前作业的信息,其中包含名称,版本,创建,目的,描述,状态等.
上下文变量:
我们将使用上下文变量在各个平台中设置不同的值,我们还可以创建一个上下文组,我们可以保存多个上下文变量.
它也用于将代码移动到开发中.
对于任何作业,我们可以进入上下文选项卡,然后添加上下文变量,如下Snapshot所示,

组件选项卡:
组件选项卡显示请求配置组件的所有参数.

运行选项卡:
运行选项卡显示作业执行的进度,并且日志窗格显示错误消息的起始和结束,因为我们可以在下面的图像中看到

本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend_data_integration_features.html
相关问答
我有一些我需要在talend中转移的数据.这是一个样本: brandname,metric,value A,xyz,2 B,xyz,2 A,abc,3 C,def,1 C,ghi,6 A,ghi,1 现在,我需要在公制列上枢转数据: brandname,abc,def,ghi,xyz A,3,null,1,2 B,null,null,null,2 C,null,1,6,null 目前,我正在使用tpivottocolumnsdelimimimimited将数据旋转到文件并从该文件中读取.但是,必须将数据存储在外部文件和回报上是混乱且不必要的开销. 有没有办法在不写入外部文件的情况下使用talend进行此操作?我尝试使用tdenformize,但据我了解,它将将行返回为1列,这不是我所需的.我还在talendexchange中寻找了一些第三方组件,但找不到任何有用的东西. 谢谢您的帮助. 解决方案 假设您的指标是固定的,则可以将其名称用作输出的列.执行枢轴的解决方案有两个部分:首先,将每个输入 - 行in的值转置到输出 - 行out和第二,A tAggregate中的A tMap中地图的输出行,根据布兰特. 对于TMAP,您必须像这样有条件地填充列,示例的示例名为" ABC": out.abc = "abc".equals(in.metr
)
我有这种数据: 我需要使用talend将这些数据转载于这样的东西: 帮助您将不胜感激. 解决方案 dbh的建议确实可以起作用,但我没有尝试. 但是,我还有另一个解决方案,该解决方案不需要更改输入格式,并且不太复杂而无法实现.实际上,这项工作只有2个转换组件(TDENFARGALATE和TMAP). 工作看起来如下: 解释: 您的输入是从CSV文件读取的(可能是数据库或任何其他类型的输入) tDenoraligalizate组件将基于ID列(第1列)上的值(列2)的列值(第2列)构成范围,将字段与特定的定界符分离(";"在我的情况下),如2行所示. tmap:通过使用Java的String.split()方法将汇总的列分为多个列,并将结果数组扩展到多个列中. TMAP应该喜欢这样: 由于Talend不接受存储数组对象,因此请确保将拆分字符串存储在对象格式中.然后,将该对象施加到地图右侧的数组中. 该方法应该给您预期的结果. 重要: tnormize可能会使行洗牌,这意味着对于更大的输入,您可能会遇到未分类的输出.确保在需要时对其进行排序或使用TdenoralalizeStredrow. tnormize类似于聚合组件,这意味着它在处理前会扫描整个输入,这导致可能的性能问题特别大(数百万记录). 您的输入可能是错误的
)
我面临Mongo DB连接的问题. 我已经成功地导入了tmongo组件,然后将其复制到lib/java文件夹中,我的mongo db作业成功运行了,但问题即使我提供了一些问题,即使我提供了一些问题,但我提供了一些问题.伪造的服务器路径(IP)和假货端口,我的工作正在运行,没有错误,这给了我1行而没有数据.右IP和端口也是如此. 我如何解决它. 解决方案 我认为连接不起作用.正如您必须知道的那样,MongoDB检查连接是否在执行查询时实际上是否有效. (是的,当您连接到它时,它不会检查成功的连接). 我建议通过遵循以下步骤来添加talend中存在的mongoDB组件: 为MongoDB提供的组件是: tmongodbinput,tmongodboutput,tmongodbconnection等 或者您可以从 http://www.talendforge.org/exchange/下载组件并搜索Mongo而不是使用TALEND大数据.但是我建议将talend用于大数据. 组件将被拉开,将其拉开相同.在talend大数据中,您会在组件文件夹中找到组件. 将这些未拉链的组件复制到TOS的安装路径. C:talendtos_di-win32-r84309v5.1.1pluginsorg.talend.designer.components.local
)
我试图在talend中实施登录.因此,我使用普通组件做了一份工作,我通过Twarn和TDIE记录了错误,信息和调试. 使用logcatcher,我将日志隔离为调试和错误的两个文件. 这部分工作正常. 现在我完成了两个工作, 首先: - 使用trowgenerator生成线,然后发送到tmap并从TMAP发送,我将根据某种条件发送到两个Twarn组件. 第二: - 具有tlogcatcher,t_filterrow并根据某种条件分离到两个文件的作业. 所以我正在与第一个捕获日志的工作并行运行第二个作业,但它不起作用. 我尝试了几个选项,并在这一点上卡住. 主要想法是拥有一个通用的记录组件,可以插入日志的任何作业. 有什么方法可以实现? 解决方案 以下是弹出的三种方式: log4j:企业版本内置了log4j,这意味着您可以在twarn/tdie中设置调试级别,并配置log4j将这些放置在不同的文件中. (当使用它时,我发现最好将警告作为我自己的信息级记录,因为Talends信息级别太深了.) 我敢肯定,log4j也可以成为开放式工作室的"黑客攻击".那将解决您的问题. 大麻:如果您喜欢当前的方式,我会为您看到2个选项.首先是尝试创建软糖,但是使用来自多个作业的同一文件不是一个好主意,可能会导致错误.这不是一个不错的解决方案,但是如
)
我们有一个要求,我们正在读取来自三个不同文件的数据并在同一作业中使用不同列的这些文件中进行加入. 每个文件大小约为25-30 GB.我们的系统RAM尺寸仅为16GB.与TMAP一起加入. Talend将所有参考数据保留在物理内存中.就我而言,我无法提供那么多的记忆.作业因记忆力不足而失败.如果我在TMAP中使用与Temp Disk选项一起使用,Job的速度很慢. 请帮助我解决这些问题. 如何处理大于RAM大小的数据? 管道并行性与塔伦德(Talend)建立?我缺少什么吗 在代码中以实现这一目标? tuniq&加入操作是在物理记忆中完成的,导致了作业 慢慢奔跑.磁盘选项可用于处理这些 功能,但是太慢了. 如何在不将数据推到DB(ELT)的情况下如何提高性能. 塔伦德是否可以在数百万中处理大量数据. 较少量的RAM的数据? 谢谢 解决方案 talend处理大量数据非常快速,有效.这一切都取决于您对TALEND平台的了解. 请考虑以下评论作为您的问题的答案. Q1.talend过程如何大于RAM大小? a.您无法将整个RAM用于Talend Studio.只有一小部分RAM可以使用其几乎一半的RAM. 例如: - 在64位系统上可用8 GB的内存,最佳设置可以是: -vmargs -XMS1024M -xmx409
)
在一个从一个表到另一个表的数据流中,我想施放一个日期. 日期以这种格式将源表作为字符串留下:" 2009-01-05 00:00:00:00:00:000 + 01:00". 我尝试使用tconvertType将其转换为日期,但显然不允许使用. 我的第二个选项是将此字符串施放到使用TMAP组件中的公式的日期. 目前我尝试了这些公式: - TalendDate.formatDate("yyyy-MM-dd",row3.rafw_dz_begi); - TalendDate.formatDate("yyyy-MM-dd HH:mm:ss",row3.rafw_dz_begi); - return TalendDate.formatDate("yyyy-MM-dd HH:mm:ss",row3.rafw_dz_begi); 这些都没有.将结果插入目标表(MySQL,InnoDB)时,A会接收到日期无效的错误消息.目标字段的格式是mysql日期字段. 如何将日期投放到所需的格式? 解决方案 talend为您提供了处理日期格式的好方法. 您可以在tMap窗口的"架构编辑器"选项卡中轻松更改日期格式. 它适用于tMap输入和输出流. 我添加了一张图片以提供更好的插图. 其他解决方案 使用公式将此字符串投放到日期....错误消息 日期无
)