教 程 目 录
TAREND教程

Talend教程提供了Talend的基本和先进的概念.本教程专为学生和工作专业人士而设计.
Talend是一个ETL工具,包含数据质量,应用程序集成,数据管理,数据集成,数据准备和大数据等不同产品.这些产品用于软件解决方案.
Talend Studio最受欢迎的产品是数据集成和大数据.
在本教程中,您将了解Talend Open Studio的所有基础知识,用于大数据和数据集成.
什么talend?
Talend是一个开源软件集成平台,允许各种解决方案,如数据集成,数据管理解决方案,大数据,数据质量和数据准备.
TAREND 2005年推出市场,是数据集成软件的第一个商业开源软件供应商.
Talend是一种工具,使ETL过程简单且有利可图.
Talend是市场上可用的最强大的数据集成ETL工具,云计算和大数据集成工具之一.
它专门从事大数据,因为它拥有所有插件,以有效地与大数据集成.
talend用于统一存储库以存储和重用元数据.
Talend在开源和高级版本中都提供.
Talend的数据集成具有与各种来源的数据相结合到高度高级和伟大实用程序的单个视图.
Talend的第一个产品是 talend开放式工作室,在2006年推出.
如今,它被称为 talend开放式工作室,用于数据集成.
从那时起,它释放了广泛的产品,通常在市场上使用.
实时,Talend帮助组织做出决定并变得更加数据驱动.
Tarend被认可为云和大数据集成软件的下一代领导者,因为在使用TAREND之后,数据变得更加接近,其质量增强,它可以快速移动到目标系统.
Talend提供更快的开发和部署,以自动执行任务.
Talend不太昂贵,因为它是开源的,可以免费下载.
Talend提供了一个统一的平台,符合我们在共同基础下的所有需求.
Talend备份由一个广泛的社区备份,因为它是一个开源工具和所有Talend用户和社区成员的首选位置,他们可以分享他们的疑虑,查询,经验等.
TAREND的历史:
Talend工具由 fabrice bonan 和 bertrand ridrd 创立,以确定企业信息世界的差距.

由talend推出的产品列表如下,
开放式工作室版本1.0 在 2006 中启动.
集成套件或关闭了第二轮融资在 2007 中推出.
数据质量或开放式profiler 在 2008 中进入市场.
集成套件 rtx (实时), mpx (大规模并行),以及 mdm (主数据管理) 2009 .
idm (身份管理)社区版或 mdm企业版本在 2010 中启动.
应用程序集成在 2011 中启动了.
在 2012 中,启动Talend 大数据收集来自不同数据源的数据,并集中管理大数据项目.
Talend在 2013 中启动了 hadoop 2.0 版本.
在 2015 中, talend cloud 被启动以满足业务的需求和IT条款.
在2016年,Talend在纳斯达克(tlnd )和数据准备上公开了.
数据结构在 2017 中启动.
让您看看Talend产品的简要介绍,
数据集成:
数据集成是一个开源测试工具,便于 ETL(提取,传输和加载)测试,包括ELT测试的所有功能.
数据质量:
数据质量是第一个开源数据质量工具,具有企业级功能和技术支持.
MDM [主数据管理]:
MDM将所有主数据统一到真实的单个和可操作版本中.它用于将实时数据,应用程序和集成流程与嵌入式数据质量组合,以共享在本地,云和移动应用程序中.
应用程序集成:
Talend应用程序集成解决方案提供易于使用的图形界面,允许我们开发,构建,测试和发布Web服务,数据服务,REST应用程序和中介路由.
大数据集成:
Talend Big数据提供了一个环境,该环境具有生成本机代码的图形工具,它可以帮助我们使用Apache Hadoop,Apache Spark和Spark Streaming.对于大数据应用,Talend Open Studio有一个开源平台.
云集成:
Talend云集成用于从我们的数据中获取价值,应用程序及其API具有高度安全和可扩展的IPAAS [Integration Platform-As-Service].
数据准备:
Talend数据准备是一个开源环境,允许我们快速准备我们的数据,并有助于我们将结果导出到整个组织的可信赖的见解中.
数据结构:
Talend数据结构用于处理本地或云中的所有数据集成和完整性挑战.
此工具易于实时使用大数据,云环境以及传统系统允许它们在组织中开发其业务和客户的统一视图.
它将TALEND产品的平台版相结合到常见的集合中.
TAREND专业人士的职业机会:
与Talend的职业机会一直在增长,随着云和大数据的应用越来越多.
谁可以为这些角色提供Tarend的经验,
观众
我们的Talend教程专为想要成为ETL专家和专业人士而设计的初学者.
先决条件
在本教程中进一步之前,我们必须具有以下基本知识,以便我们更清楚地了解Talend的概念:
问题
我们向您保证,您无法找到我们的Talend教程问题.但是,如果您发现任何错误,您可以在评论部分发布.
本文地址:https://www.itbaoku.cn/tutorial/cn_talend-index.html
相关问答
我试图在 Talend 中实现日志记录.所以我用普通的组件做了一个工作,我通过 Twarn 和 Tdie 记录了错误、信息和调试.使用 Logcatcher ,我将日志分为调试和错误两个文件.这部分工作正常. 现在我做了两份工作, 首先:- 使用 trowgenerator 生成线,然后发送到 tmap 和从 tmap,我根据某些条件发送到两个 twarn 组件. 第二个:- 具有 tlogcatcher、t_filterrow 并根据某些条件分离到两个文件的作业. 所以我正在与第一个作业并行运行第二个作业以捕获日志,但它不起作用. 我已经尝试了几个选项并停留在这一点上. 主要思想是有一个通用的日志记录组件,可以插入到任何日志作业中. 有什么方法可以实现吗? 解决方案 以下是弹出的 3 种方式: log4j:企业版内置了log4j,这意味着你可以在tWarn/tDie中设置一个调试级别,并配置log4j将它们放到不同的文件中.(使用它时,我发现最好将警告作为我自己的信息级别日志,因为 talends 信息级别太深了.)我敢肯定 log4j 也可以被“入侵"到开放工作室.那会解决你的问题.https://exchange.talend.com 搜索log4j的时候有很多结果,你应该看看. joblet:如果您更喜欢当前的方
)
我们有一个要求,我们正在读取来自三个不同文件的数据并在同一作业中使用不同列的这些文件中进行加入. 每个文件大小约为25-30 GB.我们的系统RAM尺寸仅为16GB.与TMAP一起加入. Talend将所有参考数据保留在物理内存中.就我而言,我无法提供那么多的记忆.作业因记忆力不足而失败.如果我在TMAP中使用与Temp Disk选项一起使用,Job的速度很慢. 请帮助我解决这些问题. 如何处理大于RAM大小的数据? 管道并行性与塔伦德(Talend)建立?我缺少什么吗 在代码中以实现这一目标? tuniq&加入操作是在物理记忆中完成的,导致了作业 慢慢奔跑.磁盘选项可用于处理这些 功能,但是太慢了. 如何在不将数据推到DB(ELT)的情况下如何提高性能. 塔伦德是否可以在数百万中处理大量数据. 较少量的RAM的数据? 谢谢 解决方案 talend处理大量数据非常快速,有效.这一切都取决于您对TALEND平台的了解. 请考虑以下评论作为您的问题的答案. Q1.talend过程如何大于RAM大小? a.您无法将整个RAM用于Talend Studio.只有一小部分RAM可以使用其几乎一半的RAM. 例如: - 在64位系统上可用8 GB的内存,最佳设置可以是: -vmargs -XMS1024M -xmx409
)
我正在寻找运营商的前端,以运行我们的塔伦德工作.我们不希望他能够删除或修改作业.只是为了运行它们并监视他们的结果.任何有关执行此操作的工具的建议吗? 谢谢 解决方案 Talend的订阅版本(称为Talend Integration Suite或TIS)就是这样.这是一个基于网络的控制台,称为TALEND管理中心(TAC),它允许操作员运行作业并监视其结果 - 等等.可以以您描述的方式设置权限,以使操作员无法删除或修改作业. 其他解决方案 在我的公司中,我们使用 SOS Job Scheduler ,您可以将其与TOS开箱箱一起用作一般的DIY调度解决方案.就这些天,我正在研究一个自定义组件,以在第一个和后者之间深入集成(例如日志传播,上下文参数共享等.基本上,它让您使用TOS作业中的SOS API).如果需要的话,我可以加速并在几天内放在GitHub上:) 其他解决方案 您可以按照脚本(.sh)的形式导出作业,任何人都可以执行它,并且将无法删除这些作业. 要查看执行详细信息,将一些TLOG组件放入您的talend作业中. 如果您只有开放式工作室(免费版本),这只是解决方案的工作.
)
您好,我使用的是 talend open studio 5.5.我想导出 talend 工作并放入 SVN.它包含以下文件.1) 过程a) .项目b) .properties 我想以此构建 talend 作业并创建 jar、bat 和 sh 文件,就像在 talend open studion 中构建作业时创建的那样. 解决方案 series 解释了如何使用 Talend 命令行工具从工作室外部构建作业.它是可编写脚本的,因此可以从外部工具访问,在这种情况下,Jean-Baptiste 使用 Maven 作为构建工具. 他的示例 commandline-script.sh 初始化 Talend 存储库,以用户身份登录,然后发布 ESB 路由: initRemote ${tac.location} logonProject -pn ${talend.project} -ul "${tac.user}" -up ${tac.password} publishRoute ${project.artifactId} -r "${repo.snapshot}" -u ${repo.user} -p ${repo.password} -pv ${project.version} -g ${project.groupId} -a ${project.artifactId}
)
我想通过tmssqlrow获得影响/删除/更新的行的数量. 这是工作的方式: 文件使用包含大量SQL语句,例如删除...插入...更新... 每行都是";" 分开的 但是,现在,我想获得每个语句的结果(x行更新,例如在管理工作室中显示结果). 当我转到tmssqlrow的"高级设置"选项卡时,我选择"传播Query's RecordSet",然后选择我创建之前创建的列(对象类型). 在执行时,我有一个错误: executeQuery方法必须返回结果集. 那么,我如何获得每个语句的结果并在数据库/文件中插入它? 解决方案 必须将选项"传播查询的记录集"与TPARSERECORDSET结合使用,以便从返回的记录集中提取信息.但是,这是不够的:您必须明确编写查询才能返回已更新/删除的记录数. 这是我所做的: 我的tjdbcrow(与tmssqlrow相同)查询看起来像这样(请注意,在更新查询之前我必须如何添加'set nocount on',然后'select @@ rowcount'之后) ) > tparseRecordSet检索列结果集的行数(nblines是我的rowcount的别名) 其他解决方案 如果需要影响的行数,则更好的选择是使用可以更新,插入或删除行的TMSSSQLOUTPUT组件.执行后,该
)
我正在尝试自动化一些我必须手动做的事情,因此我可以运行一个python脚本,而不是采取一系列步骤.我想找到一种从python脚本运行talend作业的方法. 我该如何完成?甚至可能吗? 解决方案 糟糕!对不起. 在工作室中,建立工作以获得可以从命令行启动的自主工作. 从生成的存档中提取文件. 搜索文件夹"脚本/yourjobname". 根据您喜欢的一个或.sh检查一个.bat或.sh的语法. 使用subprocess.call启动JAR文件(或其他从Python执行JAR文件的方法). 希望这会有所帮助. trf 其他解决方案 您一旦可以从命令行运行Python脚本,就应该能够使用TSYSTEM组件从TALEND运行它.
)