Pig不能将数据加载到HCatalog表中-HortonWorks Sandbox
我正在hortonworks虚拟机中运行一个猪脚本,目的是提取XML数据集的某些部分,并将这些零件加载到Hcatalog表中的列中.在本地计算机上,我在XML文件上运行猪脚本,并获取带有所有提取零件的输出文件.但是,由于某种原因,当我在Hortonworks VM中运行相同的脚本时,脚本似乎成功运行,但HCATALOG表仍然为空. 这是我本地脚本: REGISTER piggybank.jar items = LOAD 'data1.xml' USING org.apache.pig.piggybank.storage.XMLLoader('row') AS (row:chararray); data = FOREACH items GENERATE REGEX_EXTRACT(row, 'Id="([^"]*)"', 1) AS id:int, REGEX_EXTRACT(row, 'CreationDate="([^"]*)"', 1) AS creatio
0 2023-12-22
编程技术问答社区
通过Sqoop将序列文件导出至Oracle
我一直在尝试找到有关如何使用SQOOP将序列文件导出到Oracle的一些文档.这可能吗? 当前,我以基于文本的格式有我的文件(以HDFS为单位),并且我使用SQOOP将这些文件导出到某些Oracle的表格,并且其工作正常.现在,我想将文件的格式从文本更改为序列文件或其他内容(稍后AVRO).那么,如果我想使用SQOOP将不同的文件格式从HDF导出到Oracle,我需要做什么? 任何信息都将不胜感激. 预先感谢. 解决方案 不幸的是,sqoop目前不支持序列文件的导出. 其他解决方案 这可能无助于将数据导出到 Oracle DB .但是,只要考虑到SQOOP支持序列文件的导出 - 只需检查一下 -
32 2023-09-26
编程技术问答社区
Sqoop导入到HCatalog/Hive-table不可见
HDP-2.4.2.0-258使用Ambari 2.2.2.0 安装 我必须导入多个SQL Server模式,应通过Hive,Pig,MR和任何第三方(将来)访问.我决定进口Hcatalog. sqoop提供了向Hive或Hcatalog导入的方法,我想如果我导入到HCATALOG,则可以从Hive CLI,MR访问同一表(请评估我的假设). . 问题: 如果直接进口到Hive,该表将可用于Pig,MR ? 如果导入到Hcatalog,则需要做些什么才能通过Hive访问? 需要在蜂巢中制作表格吗?如果是,则在HCATALOG中导入的优点是什么,(我可以直接在Hive中导入)/(在HDFS中导入,然后创建外部表)? )? 问题: 我希望在一个步骤中实现以下内容: 数据的导入(从SQL Server表) 避免"预先创建"或编写这些表(其中有100个) 将表以兽人格式存储 将此数据存储在自定义HDFS路径say/org/data/schema1,
30 2023-09-26
编程技术问答社区
Hive 0.13外部表动态分区的自定义模式
根据文档,您应该能够为分区指定自定义模式 select * from rawlog_test7 limit 10;返回没有记录. 这就是我在做的 set hcat.dynamic.partitioning.custom.pattern="${year}/${month}/${day}/${hour}" 我用 ... partitioned by (year int, month int, day int, hour int) location '/history.eu1/ed_reports/hourly/'; 我的目录结构是../2014/06/18/13/ ... 如果我使用静态分区 alter table rawlog_test7 add partition (year=2014,month=6,day=18,hour=13) location '/history.eu1/ed_reports/hourly/2014/06/18/13'
10 2023-05-20
编程技术问答社区
Hive-Varchar vs String , 如果存储格式是Parquet文件格式,是否有什么优势?
我有一个蜂巢桌,它将保存数十亿个记录,其时间序列数据,因此分区为每分钟.每分钟我们将拥有大约100万张记录. 我的桌子上有几个字段,VIN号(17个字符),状态(2个字符)...等等 所以我的问题是在表创建期间,如果我选择使用varchar(x)vs字符串,是否存在存储或性能问题, varchar的限制很少 /语言+类型 如果我们提供的不仅仅是" x"字符,它将静止地截断,因此 保持其字符串将是未来的证明. 非生成UDFS不能直接使用VARCHAR类型作为输入参数 或返回值.可以创建字符串UDF,而是 VARCHAR值将转换为字符串并传递到UDF. 要直接使用VARCHAR参数或返回VARCHAR值, 创建一个通用. 如果他们可能不支持VARCHAR,如果 依靠基于反射的方法来检索类型信息. 这包括一些Serde实现. 在存储和性能方面,我必须使用字符串而不是VARCHAR支付的费用是多少 解决方案 让我们尝试从API中的实现方式中理解: -
74 2023-05-19
编程技术问答社区
如何在hadoop mapreduce/yarn中设置VCORES?
以下是我的配置: **mapred-site.xml** map-mb : 4096 opts:-Xmx3072m reduce-mb : 8192 opts:-Xmx6144m **yarn-site.xml** resource memory-mb : 40GB min allocation-mb : 1GB Hadoop群集中显示的VCORES显示了8GB,但我不知道计算是如何配置的. 希望有人可以帮助我. 解决方案 简短答案 ,如果您只是在单节点群集甚至是一个小的个人分布式群集上跑出hadoop,这很可能没关系.您只需要担心内存. 长答案 vcors用于较大的群集,以限制不同用户或应用程序的CPU.如果您自己使用纱线,没有真正的理由限制您的容器CPU.这就是为什么默认情况下甚至没有考虑到hadoop中的vcores! 尝试将可用的NodeManager Vcor​​es设置为1.没关系!您的容器数量仍然为2或4 ..或任何值的值:
172 2023-03-18
编程技术问答社区
Hadoop-使用PIG加载Hive表
我想用猪加载蜂巢表.我认为我们可以通过 HCatLoader 来做到这一点,但是我正在使用XML文件来加载猪.为此,我必须使用 XMLLoader .我可以使用两个选项将XML文件加载到Pig中. 我使用自己的UDF从XML文件中提取数据,一旦提取所有数据,我就必须将猪数据加载到Hive表中. 我无法使用Hive提取XML数据,因为我收到的XML非常复杂,因此我写了自己的UDF来解析XML.任何建议或指针我们如何使用猪数据加载蜂巢表. 我正在使用AWS. 解决方案 您可以使用定界符(可能是逗号)将加载的数据存储到文本文件中,然后在指向文件位置的Hive中创建一个外部表. Create external table YOURTABLE (schema) row format delimited fields terminated by ',' location '/your/file/directory'; 其他解决方案 您可以使用HCATSTORER
132 2022-12-21
编程技术问答社区
在运行HCatalog时得到一个错误
A = LOAD 'eventnew.txt' USING HCatalogLoader(); 2015-07-08 19:56:34,875 [main]错误org.apache.pig.tools.grunt.grunt.grunt.grunt-错误1070:无法使用imports解决HCATALOGLOADER:[,java.lang. Pig.builtin.,org.apache.pig.impl.builtin.] logfile的详细信息:/home/KS5023833/PIG_1436364102374.LOG 然后我尝试了 A = LOAD 'xyz' USING org.apache.hive.hcatalog.pig.HCatLoader(); 这也无法正常工作. 1070:无法使用imports解决org.apache.hive.hcatalog.pig.hcatloader:[,java.lang.,org.apache.pig.bu
48 2022-12-21
编程技术问答社区
类型转换猪hcatalog
我使用Hcatalog版本0.4.我在Hive" ABC"中有一个表格,该表带有一个带有" Timestamp"的数据类型的列.当我尝试运行这样的猪脚本时,使用org.apache.hcatalog.pig.hcatloader();";'raw_data = load'abc';我遇到一个错误,说" java.lang.typenotpresentexception:键入时间戳不存在". 解决方案 问题是Hcatalog不支持时间戳类型. 它将在Hive 0.13下得到支持,他们对已经解决的问题有一个问题,您可以在 https://issues.apache.org/jira/browse/hive-5814 其他解决方案 如果使用Hive-Hcatalog 0.13.0检查HCATLOADER的路径,则必须使用org.apache.hive.hcatalog.pig.HCatLoader()而不是org.apache.hcatalog.pig.HCatLoader()
28 2022-12-21
编程技术问答社区
PIG-找到了org.apache.hadoop.mapreduce.JobContext的接口,但该类是预期的
我试图从Hive加载桌子. 我正在使用hcatalog. 我使用 登录到蜂巢 pig -useHCatalog 我几乎从Hive和Hadoop导出了所有罐子 register 'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/user/pig/jars/hive-exec-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/user/pig/jars/hive-common-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/user/pig/jars/hive-metastore-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/user/pig/j
28 2022-12-21
编程技术问答社区
Hive错误:parseexception缺少EOF
我不确定我在这里做错了: hive> CREATE TABLE default.testtbl(int1 INT,string1 STRING) stored as orc tblproperties ("orc.compress"="NONE") LOCATION "/user/hive/test_table"; FAILED: ParseException line 1:107 missing EOF at 'LOCATION' near ')' 虽然以下查询效果很好: hive> CREATE TABLE default.testtbl(int1 INT,string1 STRING) stored as orc tblproperties ("orc.compress"="NONE"); OK Time taken: 0.106 seconds
1316 2022-11-03
编程技术问答社区
BigQuery中是否有像'hive metastore'这样的元数据存储?
我是BigQuery的新手.我只想知道,我们是否有诸如Hive Metastore之类的东西(有关所有桌子,列及其描述的元数据)? 解决方案 BigQuery提供了一些特殊表,其内容代表元数据,例如数据集中的表和视图列表. "元表"是只读的.要在数据集中访问有关表和视图的元数据,请在查询的选择语句中使用__Tables_summary__元table.您可以使用BigQuery Web UI,使用命令行工具的BQ Query命令或调用Jobs.Insert API方法并配置查询作业来运行查询. 另一个更详细的元表是__ -Tables __-请参见下面的示例 SELECT table_id, DATE(TIMESTAMP_MILLIS(creation_time)) AS creation_date, DATE(TIMESTAMP_MILLIS(last_modified_time)) AS last_modified_date
28 2022-11-03
编程技术问答社区
hcatalog在hadoop中的用途是什么?
我是Hadoop的新手.我知道Hcatalog是Hadoop的表和存储管理层.但是它如何确切工作以及如何使用它.请举一些简单的例子. 解决方案 HCATALOG支持可以编写Hive Serde(Serializer-Deserializer)的任何格式的阅读和编写文件.默认情况下,HCATALOG支持RCFILE,CSV,JSON和SequenceFile格式.要使用自定义格式,您必须提供InputFormat,outputformat和serde. HCATALOG建立在蜂巢元马托尔的顶部,并结合了来自Hive DDL的组件. HCATALOG为PIG和MAPREDUCE提供读写接口,并使用Hive的命令行界面来发布数据定义和元数据探索命令. 它还提出了一个REST接口,以允许外部工具访问Hive DDL(数据定义语言)操作,例如"创建表"和"描述表". hcatalog介绍了数据的关系视图.数据存储在表中,这些表可以放在数据库中.表也​​可以在一个或多个键上
34 2022-11-03
编程技术问答社区