Pandas Dataframe或类似的C#.NET版本
我目前正在努力实现较早在Python内置的Gurobi线性程序模型的C#版本.我有许多CSV文件,从中我从中导入数据并创建PANDAS DataFrames,并且我正在从这些数据范围内获取列来创建我在线性程序中使用的变量.用于使用DataFrames创建变量的Python代码如下: dataPath = "C:/Users/XYZ/Desktop/LinearProgramming/TestData" routeData = pd.DataFrame.from_csv(os.path.join(dataPath, "DirectLink.csv"), index_col=None) #Creating 3 Python-dictionaries from Python Multi-Dict using column names and keeping RouteID as the key routeID, transportCost, routeType = multidict({
2 2024-04-14
编程技术问答社区
通过消除无意义的比特来压缩数据的方法
我正在处理时间序列数据. 在每个示例计时,我得到一个样本,并且该值的大小不是全字节. 例如,如果示例是7位数据,则​​仅在字节上使用7位. 第一个示例= 0B 0100 1000, 第二个样本= 0B 0110 0010 等等…… 最初, 0100 1000 0110 0010 ,但我想得到 10 0100 0110 0010 如何将此压缩方法应用于编码和解码?? 是否有这种方法有任何官方的压缩理论? 解决方案 使用位操作一次将七个位写给您在两个变量中维护的位缓冲区,并在积累它们时写出字节.最后,您仍然需要写出完整的字节,因此最后一个字节可能有一些未使用的位.用相同的方法从比特流进行解码一次读取七个位. encode(in C): unsigned buf = 0, bits = 0; for (int i = 0; i
0 2024-04-07
编程技术问答社区
我得到TypeError:当在数据框架上使用to_sql时,不能在类似字节的对象上使用字符串模式,python 3
嗨,我正在尝试使用df.to_sql将数据帧写入我的SQL数据库,但是我会收到错误消息:TypeError:无法在类似字节的对象上使用字符串模式.我正在使用python 3. 我正在使用驱动器上的路径,不幸的是我无法分享.但是当我只想使用CSV文件打开CSV文件时,它可以正常工作. df = pd.read_csv(path, delimiter=';', engine='python', low_memory=True, encoding='utf-8-sig') 我正在使用编码项目,因为否则它们是我的索引列中的一个奇怪对象.但也没有使用编码,我会收到相同的错误. 我也在我的数据框架上使用了df.dtypes,但没有字节对象.只有int,对象和浮子.我还试图弄清楚使用bytes(df[x]).decode('utf-8')中的数据框中是否具有类似字节的对象,但我只能获取整数列而不是对象列.我尝试解码,然后使用to_sql,但没有任何帮助. df.to_sql('DMM_23
0 2024-04-05
编程技术问答社区
在R中创建缓冲区和计数点
我问此问题以前没有得到回应,所以我这次会尝试做得更好! 我想使用R分析加油站点的空间密度.然后,我需要玩缓冲区距离,以查看什么是合理的缓冲区才能看到有趣的东西.我不会发布整个形状文件,因为它相当凌乱,但这就是数据的样子: all
0 2024-04-04
编程技术问答社区
为spark sql数据框架序列化/反序列化现有类
使用Spark 1.6.0 说我有这样的课 case class MyClass(date: java.util.Date, oid: org.bson.types.ObjectId) 如果我有 //rdd: RDD[MyClass] rdd.toDF("date", "oid") 我得到java.lang.UnsupportedOperationException: Schema for type java.util.Date/org.bson.types.ObjectId is not supported 现在我知道我可以使它成为java.sql.Date,但假设MyClass在其他地方依赖于其他地方,无法解决问题. 我也知道UserDefinedType选项.但是,似乎只有在您还创建一个新类以与之合作的情况下(再次,MyClass的签名需要保持相同) 是否没有办法仅注册java.util.Date和org.bson.types.ObjectId
0 2024-04-04
编程技术问答社区
如何在另一个数据框架的UDF中引用一个数据框架?
在另一个数据框架上执行UDF时,如何引用pyspark数据框? 这是一个虚拟示例.我正在创建两个dataframes scores和lastnames,并且每个列中都在两个数据范围内相同的列.在应用于scores上的UDF中,我想对lastnames进行过滤,然后返回lastname中的字符串. from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * sc = SparkContext("local") sqlCtx = SQLContext(sc) # Generate Random Data import itertools import random student_ids = ['student1', 'student2', 'student3'] subjec
4 2024-04-03
编程技术问答社区
在Spark中,一个广播对象的最大尺寸是多少?
使用dataframe 广播函数,可以将最大对象大小用于所有执行者? 解决方案 默认值为10MB,但我们已经使用了直到300 MB,由 spark.sql.autobroadcastjointhreshold . afaik,这完全取决于可用的内存.因此,对此没有明确的答案.我要说的是,它应该比大数据框架要少,您可以估计大小的数据框架大小如下... import org.apache.spark.util.SizeEstimator logInfo(SizeEstimator.estimate(yourlargeorsmalldataframehere)) 基于此,您可以通过broadcast提示到框架. 也可以看一下 Scala Doc来自 说.... 广播:如果联接的一侧具有估计的物理尺寸,则比用户可配置小 [[sqlconf.auto_broadcastjoin_threshold]]阈值 Side具有明确的广播提示(例如,用户应用了 [[o
2 2024-04-03
编程技术问答社区
在R中写入数据帧时出错
我正在尝试从我从pdf文件中提取的文本中搜索一个单词,该单词是OCR的格式.该pdf文件有多个页面,因此,对于每个页面,我正在搜索该单词,如果找到该单词,则写 fileName , status (存在或不存在) ,页面在其中找到了单词它在数据范围内找到的.但是数据框架给所有文件提供了"存在"状态,我只想像这样 file_name Status Page words test1.pdf "Present" test1_2,test1_4 gym,school test2.pdf "Not Present" - - test3.pdf "Present" test3_1 gym 我在此代码中缺少什么. 这是代码 All_files=Sys.glob("*.pdf") v1
2 2024-04-03
编程技术问答社区
从2个不同的数据框中创建成对的博列表
我想在R中创建带有框图的图形.我得到了以下数据帧: > drools_responseTimes_numberOfClients_REST X1 X5 X10 X20 X50 1 816 183 699 154 297 2 366 280 1283 345 291 3 103 946 1609 409 377 4 431 1086 1974 482 479 5 90 1379 2083 567 557 6 290 511 2184 910 925 7 134 770 2283 980 1277 8 480 1547 2416 1069 1752 9 275 1727 2520 1141 1846 10 67 679 2616 1188 1935 > javascript_responseTimes_numberOfClients_RES
0 2024-04-03
编程技术问答社区
当在seaborn中绘制独立的组时,如何将数据作为一个组包括在内?
我有一个数据框架,我必须比较具有数据框中的特定值(过滤)的列的中位数,以及与我的原始数据帧中所有值的同一列的中位数. 这是我到达最远的地方,我介绍了两个图,我认为应该在同一图中: 我的目标是将这两个图合并在一起. 这是我的代码提供该输出. filt_waterfront = df['waterfront'] == 1 fig, axs = plt.subplots(1,2) sns.boxplot(y='price', data = df[filt_waterfront], ax=axs[0], color= 'red') sns.boxplot(y='price', data = df, ax=axs[1], color = 'orange') fig.set_size_inches(9,6) fig.suptitle('Price plots of properties with waterfront and general properties') fig.axe
2 2024-04-03
编程技术问答社区
pandas boxplot中每个子图的独立轴
以下代码有助于获得具有独特彩色框的子图.但是所有子图共享一组X和Y轴的共同集.我期待每个子图具有独立轴: import pandas as pd import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import PathPatch df = pd.DataFrame(np.random.rand(140, 4), columns=['A', 'B', 'C', 'D']) df['models'] = pd.Series(np.repeat(['model1','model2', 'model3', 'model4', 'model5', 'model6', 'model7'], 20)) bp_dict = df.boxplot( by="models",layout=(2,2),figsize=(6,4), return_type='both', patch_arti
0 2024-04-03
编程技术问答社区
改变pandas boxplot子图中单个方框的颜色
这是参考以下问题,其中讨论了调整标题和布局的选项: 修改PANDIFY PANDIFY PANDIFY PANDIFY PANDIFY PANDIFY PANDIFY 我的要求是更改每个子图中各个盒子的颜色(如下所示): 以下是共享链接上可用的代码,用于调整子图的标题和轴属性: import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.DataFrame(np.random.rand(140, 4), columns=['A', 'B', 'C', 'D']) df['models'] = pd.Series(np.repeat(['model1','model2', 'model3', 'model4', 'model5', 'model6', 'model7'], 20)) bp = df.boxplot(by="models",layout=(4,1),fig
2 2024-04-03
编程技术问答社区
为pandas Dataframe Boxplot()设置y轴刻度,3个偏差?
我试图用行业(并标记)分组(并标记)的不同盒子图,然后使用Y轴使用我指示的量表. 在一个完美的世界中,这将是动态的,我可以将轴视为一定数量的标准偏差与整体平均值.我可以使用另一种类型的动态设置Y轴,但我希望它是创建的所有"每月"分组的盒装中的标准配置.我不知道最好的处理方法是什么,并且对智慧开放 - 我所知道的是,现在使用的数字是对图表有意义的大型方法. 我尝试了各种代码,并且轴的缩放尺度为零,下面的代码与我可以访问该图一样近. 这是指一些虚拟数据的链接: 对于我使用的python 3.5: import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt matplotlib.use('TkAgg') import pylab df = pd.read_csv('Query_Final_2.csv') df['Ship_Date'] = pd
0 2024-04-03
编程技术问答社区
删除未使用的分类值boxplot-R
我有以下代码: x = rnorm(30, 1, 1) c = c(rep("x1",10), rep("x2",10), rep("x3",10)) df = dataframe(x,c) boxplot(x ~ c, data=df) 它效果很好.但是,如果我决定不再有兴趣查看x3,请删除它,然后重新启动: dfMod = subset(df, c %in% c("x1", "x2")) boxplot(x ~ c,data=dfMod) BoxPlot仍显示X3的列. ive尝试使用 提示Boxplot boxplot(x~c,data=dfMod, names = c("x1", "x2")) 但这引发了名称大小不正确的错误.预先感谢您的帮助 解决方案 使用droplevels subset 之后 dfMod
0 2024-04-03
编程技术问答社区
将潘达斯数据帧写入_csv StringIO而不是文件
此代码的目的是将现有的CSV文件从指定的S3存储库中读取到数据框中,过滤Dataframe的所需列的数据框,然后使用Stringio使用该csv对象写入 em>过滤 dataframe我可以上传到其他S3桶. 现在一切都起作用 函数的代码块" prepary_file_for_upload".以下是完整的代码块: from io import StringIO import io #unsued at the moment import logging import pandas as pd import boto3 from botocore.exceptions import ClientError FORMAT = '%(asctime)s - %(name)s - %(levelname)s - %(message)s' logging.basicConfig(level=logging.INFO, format=FORMAT) logger = logging.g
2 2024-04-03
编程技术问答社区
如何用pyarrow从S3中读取parquet文件的列表作为pandas数据帧?
我有一种使用boto3(1.4.4),pyarrow(0.4.1)和pandas(0.20.3)的方法来实现这一目标. 首先,我可以在本地读取一个单个镶木quet文件: import pyarrow.parquet as pq path = 'parquet/part-r-00000-1e638be4-e31f-498a-a359-47d017a0059c.gz.parquet' table = pq.read_table(path) df = table.to_pandas() 我也可以在本地读取当地文件的目录: import pyarrow.parquet as pq dataset = pq.ParquetDataset('parquet/') table = dataset.read() df = table.to_pandas() 都像魅力一样工作.现在,我想将存储在S3存储桶中的文件中远程实现.我希望这样的事情能起作用: dataset =
4 2024-04-03
编程技术问答社区
将数据框架直接保存为csv格式,并保存到s3 Python中
我有一个我想上传到新CSV文件的pandas数据框架.问题在于,我不想在将文件传输到S3之前在本地保存.是否有任何方法可以将数据框直接写入S3?我正在使用boto3. 这是我到目前为止所拥有的: import boto3 s3 = boto3.client('s3', aws_access_key_id='key', aws_secret_access_key='secret_key') read_file = s3.get_object(Bucket, Key) df = pd.read_csv(read_file['Body']) # Make alterations to DataFrame # Then export DataFrame to CSV through direct transfer to s3 解决方案 您可以使用: from io import StringIO # python3; python2: BytesIO import bo
4 2024-04-03
编程技术问答社区