教 程 目 录
TAREND教程

Talend教程提供了Talend的基本和先进的概念.本教程专为学生和工作专业人士而设计.
Talend是一个ETL工具,包含数据质量,应用程序集成,数据管理,数据集成,数据准备和大数据等不同产品.这些产品用于软件解决方案.
Talend Studio最受欢迎的产品是数据集成和大数据.
在本教程中,您将了解Talend Open Studio的所有基础知识,用于大数据和数据集成.
什么talend?
Talend是一个开源软件集成平台,允许各种解决方案,如数据集成,数据管理解决方案,大数据,数据质量和数据准备.
TAREND 2005年推出市场,是数据集成软件的第一个商业开源软件供应商.
Talend是一种工具,使ETL过程简单且有利可图.
Talend是市场上可用的最强大的数据集成ETL工具,云计算和大数据集成工具之一.
它专门从事大数据,因为它拥有所有插件,以有效地与大数据集成.
talend用于统一存储库以存储和重用元数据.
Talend在开源和高级版本中都提供.
Talend的数据集成具有与各种来源的数据相结合到高度高级和伟大实用程序的单个视图.
Talend的第一个产品是 talend开放式工作室,在2006年推出.
如今,它被称为 talend开放式工作室,用于数据集成.
从那时起,它释放了广泛的产品,通常在市场上使用.
实时,Talend帮助组织做出决定并变得更加数据驱动.
Tarend被认可为云和大数据集成软件的下一代领导者,因为在使用TAREND之后,数据变得更加接近,其质量增强,它可以快速移动到目标系统.
Talend提供更快的开发和部署,以自动执行任务.
Talend不太昂贵,因为它是开源的,可以免费下载.
Talend提供了一个统一的平台,符合我们在共同基础下的所有需求.
Talend备份由一个广泛的社区备份,因为它是一个开源工具和所有Talend用户和社区成员的首选位置,他们可以分享他们的疑虑,查询,经验等.
TAREND的历史:
Talend工具由 fabrice bonan 和 bertrand ridrd 创立,以确定企业信息世界的差距.

由talend推出的产品列表如下,
开放式工作室版本1.0 在 2006 中启动.
集成套件或关闭了第二轮融资在 2007 中推出.
数据质量或开放式profiler 在 2008 中进入市场.
集成套件 rtx (实时), mpx (大规模并行),以及 mdm (主数据管理) 2009 .
idm (身份管理)社区版或 mdm企业版本在 2010 中启动.
应用程序集成在 2011 中启动了.
在 2012 中,启动Talend 大数据收集来自不同数据源的数据,并集中管理大数据项目.
Talend在 2013 中启动了 hadoop 2.0 版本.
在 2015 中, talend cloud 被启动以满足业务的需求和IT条款.
在2016年,Talend在纳斯达克(tlnd )和数据准备上公开了.
数据结构在 2017 中启动.
让您看看Talend产品的简要介绍,
数据集成:
数据集成是一个开源测试工具,便于 ETL(提取,传输和加载)测试,包括ELT测试的所有功能.
数据质量:
数据质量是第一个开源数据质量工具,具有企业级功能和技术支持.
MDM [主数据管理]:
MDM将所有主数据统一到真实的单个和可操作版本中.它用于将实时数据,应用程序和集成流程与嵌入式数据质量组合,以共享在本地,云和移动应用程序中.
应用程序集成:
Talend应用程序集成解决方案提供易于使用的图形界面,允许我们开发,构建,测试和发布Web服务,数据服务,REST应用程序和中介路由.
大数据集成:
Talend Big数据提供了一个环境,该环境具有生成本机代码的图形工具,它可以帮助我们使用Apache Hadoop,Apache Spark和Spark Streaming.对于大数据应用,Talend Open Studio有一个开源平台.
云集成:
Talend云集成用于从我们的数据中获取价值,应用程序及其API具有高度安全和可扩展的IPAAS [Integration Platform-As-Service].
数据准备:
Talend数据准备是一个开源环境,允许我们快速准备我们的数据,并有助于我们将结果导出到整个组织的可信赖的见解中.
数据结构:
Talend数据结构用于处理本地或云中的所有数据集成和完整性挑战.
此工具易于实时使用大数据,云环境以及传统系统允许它们在组织中开发其业务和客户的统一视图.
它将TALEND产品的平台版相结合到常见的集合中.
TAREND专业人士的职业机会:
与Talend的职业机会一直在增长,随着云和大数据的应用越来越多.
谁可以为这些角色提供Tarend的经验,
观众
我们的Talend教程专为想要成为ETL专家和专业人士而设计的初学者.
先决条件
在本教程中进一步之前,我们必须具有以下基本知识,以便我们更清楚地了解Talend的概念:
问题
我们向您保证,您无法找到我们的Talend教程问题.但是,如果您发现任何错误,您可以在评论部分发布.
本文地址:https://www.itbaoku.cn/tutorial/cn_talend-talend.html
相关问答
我面临Mongo DB连接的问题. 我已经成功地导入了tmongo组件,然后将其复制到lib/java文件夹中,我的mongo db作业成功运行了,但问题即使我提供了一些问题,即使我提供了一些问题,但我提供了一些问题.伪造的服务器路径(IP)和假货端口,我的工作正在运行,没有错误,这给了我1行而没有数据.右IP和端口也是如此. 我如何解决它. 解决方案 我认为连接不起作用.正如您必须知道的那样,MongoDB检查连接是否在执行查询时实际上是否有效. (是的,当您连接到它时,它不会检查成功的连接). 我建议通过遵循以下步骤来添加talend中存在的mongoDB组件: 为MongoDB提供的组件是: tmongodbinput,tmongodboutput,tmongodbconnection等 或者您可以从 http://www.talendforge.org/exchange/下载组件并搜索Mongo而不是使用TALEND大数据.但是我建议将talend用于大数据. 组件将被拉开,将其拉开相同.在talend大数据中,您会在组件文件夹中找到组件. 将这些未拉链的组件复制到TOS的安装路径. C:talendtos_di-win32-r84309v5.1.1pluginsorg.talend.designer.components.local
)
我有一些我需要在talend中转移的数据.这是一个样本: brandname,metric,value A,xyz,2 B,xyz,2 A,abc,3 C,def,1 C,ghi,6 A,ghi,1 现在,我需要在公制列上枢转数据: brandname,abc,def,ghi,xyz A,3,null,1,2 B,null,null,null,2 C,null,1,6,null 目前,我正在使用tpivottocolumnsdelimimimimited将数据旋转到文件并从该文件中读取.但是,必须将数据存储在外部文件和回报上是混乱且不必要的开销. 有没有办法在不写入外部文件的情况下使用talend进行此操作?我尝试使用tdenformize,但据我了解,它将将行返回为1列,这不是我所需的.我还在talendexchange中寻找了一些第三方组件,但找不到任何有用的东西. 谢谢您的帮助. 解决方案 假设您的指标是固定的,则可以将其名称用作输出的列.执行枢轴的解决方案有两个部分:首先,将每个输入 - 行in的值转置到输出 - 行out和第二,A tAggregate中的A tMap中地图的输出行,根据布兰特. 对于TMAP,您必须像这样有条件地填充列,示例的示例名为" ABC": out.abc = "abc".equals(in.metr
)
我试图在talend中实施登录.因此,我使用普通组件做了一份工作,我通过Twarn和TDIE记录了错误,信息和调试. 使用logcatcher,我将日志隔离为调试和错误的两个文件. 这部分工作正常. 现在我完成了两个工作, 首先: - 使用trowgenerator生成线,然后发送到tmap并从TMAP发送,我将根据某种条件发送到两个Twarn组件. 第二: - 具有tlogcatcher,t_filterrow并根据某种条件分离到两个文件的作业. 所以我正在与第一个捕获日志的工作并行运行第二个作业,但它不起作用. 我尝试了几个选项,并在这一点上卡住. 主要想法是拥有一个通用的记录组件,可以插入日志的任何作业. 有什么方法可以实现? 解决方案 以下是弹出的三种方式: log4j:企业版本内置了log4j,这意味着您可以在twarn/tdie中设置调试级别,并配置log4j将这些放置在不同的文件中. (当使用它时,我发现最好将警告作为我自己的信息级记录,因为Talends信息级别太深了.) 我敢肯定,log4j也可以成为开放式工作室的"黑客攻击".那将解决您的问题. 大麻:如果您喜欢当前的方式,我会为您看到2个选项.首先是尝试创建软糖,但是使用来自多个作业的同一文件不是一个好主意,可能会导致错误.这不是一个不错的解决方案,但是如
)
我们有一个要求,我们正在读取来自三个不同文件的数据并在同一作业中使用不同列的这些文件中进行加入. 每个文件大小约为25-30 GB.我们的系统RAM尺寸仅为16GB.与TMAP一起加入. Talend将所有参考数据保留在物理内存中.就我而言,我无法提供那么多的记忆.作业因记忆力不足而失败.如果我在TMAP中使用与Temp Disk选项一起使用,Job的速度很慢. 请帮助我解决这些问题. 如何处理大于RAM大小的数据? 管道并行性与塔伦德(Talend)建立?我缺少什么吗 在代码中以实现这一目标? tuniq&加入操作是在物理记忆中完成的,导致了作业 慢慢奔跑.磁盘选项可用于处理这些 功能,但是太慢了. 如何在不将数据推到DB(ELT)的情况下如何提高性能. 塔伦德是否可以在数百万中处理大量数据. 较少量的RAM的数据? 谢谢 解决方案 talend处理大量数据非常快速,有效.这一切都取决于您对TALEND平台的了解. 请考虑以下评论作为您的问题的答案. Q1.talend过程如何大于RAM大小? a.您无法将整个RAM用于Talend Studio.只有一小部分RAM可以使用其几乎一半的RAM. 例如: - 在64位系统上可用8 GB的内存,最佳设置可以是: -vmargs -XMS1024M -xmx409
)
在Talend Open Studio中,如何仅执行其中一个组件?如果我单击运行,所有活动组件都将运行.到目前为止,我知道执行单个组件的唯一方法就是停用工作中的所有其他组件. 如何执行一个组件或招生,而无需停用工作中的所有其他组件? 解决方案 好吧,恐怕你不能. 两个可能的解决方案: 停用不需要的组件/招生(如您已经说过) 将您的工作分解为多个工作.这可能会给您带来更大的灵活性.然后,您可以使用tBufferOutput组件将信息从子工作传递给他的父母.
)
我们有一个生产者流程将文件写入特定文件夹,该文件夹连续运行,我们必须使用talend一个一个一个问题,有2个问题: 第一个:twaitforfile读取启动之前存在的文件,因此在组件启动后创建的文件不可见. 第二个:无法知道文件是否由生产者过程释放,可以在未完全编写的情况下读取该文件,twaitforfile的参数_WAIT_RELEASE_不起作用. 那么,如何从具有增加文件编号的目录中读取完整的书面文件? 解决方案 我不确定您的第一期是什么意思.在文件夹中创建,修改或删除文件时,Twaitforfile可以触发选项. 至于第二期,您最好的选择是为文件生产者创建确定或控制文件,该文件是0字节触摸完成您想要的文件时. 在这种情况下,您只需查找确定文件的外观,然后选择相关完成的文件即可.如果将两个文件命名相同,但使用不同的文件扩展名(通常称为" .ok"),则应该很容易寻找.然后将其连接到迭代到tfileInputDelimimited(如果您要挑选划界的文本文件),然后将文件名声明为((String)globalMap.get("tWaitForFile_1_CREATED_FILE")).substring(0,((String)globalMap.get("tWaitForFile_1_CREATED_FILE")).length()-3) +
)