如何在AWS胶合作业中设置" ZSTD"压缩水平?
背景 " ZSTD"压缩编解码器具有22个压缩水平.我阅读这个Uber博客.关于压缩时间和文件大小,我在数据中使用df.to_parquet进行了验证,并获得了相同的实验结果.因此,我希望在我们的AWS Glue Spark Job中将压缩水平设置为19 实验1 我的AWS胶水工作使用"胶4.0 -Spark 3.3,Scala 2,Python 3"版本. 这是我的代码 import sys from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job args = getResolvedOptions(sys.argv, ["JOB_NAME"]) sc = SparkContext() glueContext =
10 2024-03-22
编程技术问答社区
wbtc.cc.tar.zst
假设我有两个文件: file1.zst file2.tar.zst 如何在终端中解压缩这些文件? 解决方案 扩展.zst意味着存档被ZSTD压缩. https://github.com/facebook/facebook/zstd tar命令有一个选项-i( - use-compress-program)来指定压缩/减压的命令. 您可以按以下方式使用它. $ tar --use-compress-program=unzstd -xvf archive.tar.zst 其他解决方案 将其解压缩在终端中. unzstd yourfilename.zst 我知道没有很多资源可用,但是我在这里找到了: http://manpages.org/zstd 其他解决方案 如果您有标准的CMake + GCC构建堆栈: git clone https://github.com/facebook/zstd.git cd zstd/
32 2024-03-03
编程技术问答社区
在Scala和Spark中读取zst档案:本地zStandard库不可用
我正在尝试使用Scara上的Spark读取ZST压缩文件. import org.apache.spark.sql._ import org.apache.spark.sql.types._ val schema = new StructType() .add("title", StringType, true) .add("selftext", StringType, true) .add("score", LongType, true) .add("created_utc", LongType, true) .add("subreddit", StringType, true) .add("author", StringType, true) val df_with_schema = spark.read.schema(schema).json("/home/user/repos/concepts/
2 2024-03-01
编程技术问答社区
如何更改通过Spark编写的文件的ZSTD压缩级别?
据称,在Spark文档中,默认的ZSTD压缩级别为1. https://spark.apache.org/docs.org/docs/latest/latest/configuration/configuration.html 我将此属性设置为 spark-defaults.conf , 的不同值 和代码中的内部 val conf = new SparkConf(false) conf.set("spark.io.compression.zstd.level", "22") val spark = SparkSession.builder.config(conf).getOrCreate() .. 以多次读取相同的输入和保存/编写斑点格式,完全不会更改输出文件大小.一个人如何在火花中调整此压缩水平? 解决方案 参数spark.io.compression.zstd.level是用于压缩中间文件的编解码器 - 序列化的RDD,洗牌,广播,检查点.在大多数情况下,
32 2024-02-29
编程技术问答社区
如何检测 zstd 压缩?
我目前正在处理与Facebook API合作的Python应用程序.众所周知,Facebook喜欢他们自己的技术,并正在与ZSTD合作以进行数据压缩. 问题:Facebook正在返回使用普通JSON的未压缩响应,或者如果响应更长,则它正在使用ZSTD压缩JSON响应. 我当前的代码是这样的: import zstd import json def handle_response(response) json = None try: json = json.loads(zstd.decompress(response.content)) except: json = json.loads(response.text) return json 我目前想知道,是否有一种更干净的方法可以做到这一点,甚至检测ZSTD. 解决方案 您的工作很好. ,我想您可以检查流是否以四个字节28 b5 2f
8 2023-07-21
编程技术问答社区
在MacOS Bigsur上使用pip安装mysqlclient时出现错误
我尝试了为mysqlclient错误编写的通用解决方案 第一次尝试:brew install mysql-connector-c 第二次尝试: LDFLAGS=-L/usr/local/opt/openssl/lib pip install mysqlclient 第三次尝试:brew install zstd 和MySQL Server运行良好. 但是错误没有解决. 我得到clang linker error说library not found for -lzstd clang -bundle -undefined dynamic_lookup -L/usr/local/opt/readline/lib -L/usr/local/opt/readline/lib -L/Users/user/.asdf/installs/python/3.7.10/lib -L/usr/local/opt/llvm/lib -L/Library/Developer/C
30 2023-06-06
编程技术问答社区
如何解压有.zst或tar.zst的档案文件?
我不知道如何对具有.zst或tar.zst扩展的文件解压缩. 完整文件名: - file.pkg.tar.zst或file.xz.tar.zst 解决方案 扩展.zst意味着存档被ZSTD压缩. https://github.com/facebook/facebook/zstd tar命令有一个选项-i( - use-compress-program)来指定压缩/减压的命令. 您可以按以下方式使用它. $ tar --use-compress-program=unzstd -xvf archive.tar.zst 其他解决方案 将其解压缩在端子中. unzstd yourfilename.zst 我知道没有很多资源可用,但是我在这里找到了: http://manpages.org/zstd 其他解决方案 如果您有标准的CMAKE + GCC构建堆栈: git clone https://github.com/facebook/
1684 2023-03-23
编程技术问答社区