如何在 spark 结构流中使用 UDF(用户自定义函数)?
我进行了一些搜索. 这个答案我可以告诉我我可以使用UDF在groupeddata上,它可以使用,我可以用我自己的功能在GroupData中处理这些行和列. 根据官方教程.他们使用groupby()和window()操作来表示如下. . words = ... # streaming DataFrame of schema { timestamp: Timestamp, word: String } # Group the data by window and word and compute the count of each group windowedCounts = words.groupBy( window(words.timestamp, "10 minutes", "5 minutes"), words.word ).count() 我的问题是,是否有一种在 words.groupby上使用UDF的方法( 窗口(words.timestamp
38 2024-04-23
编程技术问答社区
将 SpaCy'EntityRecognizer 应用于 Pandas 数据框中的一列
我有一个基于文本的数据集,我希望将Spacy的EntityRognizer应用于特定列的每一行. 我可以通过这样的操作来应用一般的Spacy管道: df ['new_col'] = df ['col'].应用(lambda x:nlp(x)) 我如何仅应用实体重新调用并获得其值? 解决方案 在spacy中,doc具有属性.ents巫婆在其命名实体上返回发电机. 因此您可以使用: df['new_col'] = df['col'].apply(lambda x: list(nlp(x).ents))
32 2024-04-23
编程技术问答社区
如何在 pandas 数据帧中对字符串进行词法化?
我有一个python pandas dataframe,我需要在其中两个列中插入单词.我正在使用spacy. import spacy nlp = spacy.load("en") 我试图基于此示例使用lemmatization(它的工作正常): doc3 = nlp(u"this is spacy lemmatize testing. programming books are more better than others") for token in doc3: print (token, token.lemma, token.lemma_) 我已经对此进行了重写,以遍历我的数据框中的每一行的循环: for row in example['col1']: for token in row: print(token.lemma_) 这有效,但是,我无法弄清楚如何用诱人的单词替换Col1中的单词. 我已经尝试过,这不
20 2024-04-23
编程技术问答社区
分组、拆分和选取数据帧中的最高行
问题 在以下dataframe df中: import random import pandas as pd random.seed(999) sz = 50 qty = {'one': 1, 'two': 2, 'three': 3} thing = (random.choice(['one', 'two', 'three']) for _ in range(sz)) order = (random.choice(['ascending', 'descending']) for _ in range(sz)) value = (random.randint(0, 100) for _ in range(sz)) df = pd.DataFrame({'thing': thing, 'order': order, 'value': value}) ...我想: thing 的组 通过order 将其分开 按value对value进行thing order
6 2024-04-23
编程技术问答社区
如何对数据帧列中的图元进行排序
我有一个由一列组成的数据框架,如下所示: pid aid 0000000F (0BDEAC61, 288E046F) 00000017 (7795AF0D, 4A259AFA, 7DA84B6E) 00000019 (8123B8CF, 3A25A1FE) 00000025 (28045D98, 8043B6E5, 81195E5D) 0000003A (7D566708, 7F5583AE) 我想对每个元组中的值进行排序,因此结果将如下: pid aid 0000000F (0BDEAC61, 288E046F) 00000017 (4A259AFA, 7795AF0D, 7DA84B6E) 00000019 (3A25A1FE, 8123B8CF) 00000025
16 2024-04-23
编程技术问答社区
多层排序-Pandas pivot_table
我正在寻找一种解决熊猫枢轴表的解决方案,因为在excel枢轴表中可能会根据汇总值在excel枢轴表中进行分类,从而确定了第一级的顺序. 我找到了使用PD.Append的解决方案. 警告告诉我,pd.append将来将无法使用,因此我应该使用pd.concat. 我尚未通过pd.concat来解决我的问题. 这是PD.Append的解决方案 解决方案 您应该使用out = pd.concat([ df_pivot.iloc[:-1] .assign(sort=lambda x: x['Totals'].groupby(level=0).transform('sum')) .sort_values(['sort','Name','Totals'], ascending=[False,True,False], kind='mergesort') .drop('sort', axis=1), df_pivot.iloc[[-1]] # slicing as DataFrame
24 2024-04-23
编程技术问答社区
Pandas 使用数字字符串对列进行排序
我有以下数据框架: col1 Numb10 Numb11 Numb12 Numb7 Numb8 我如何按数字顺序排序: col1 Numb7 Numb8 Numb10 Numb11 Numb12 我尝试了,但出现了错误TypeError: cannot convert the series to . df.sort_values(by = "col1", key = (lambda x: int(x[4:]))) 更新col1 中缺少一个 解决方案 您的x[4:]可能并不总是是整数.您可以使用 验证 # convert to numerical values, float, not integers extracted_nums = pd.to_numeric(df['col1'].str[4:], errors='coerce') # check for invalid values # if not `0` me
22 2024-04-23
编程技术问答社区
无法使用 pandas to_sql() 方法向 Snowflake 数据库表插入数据
我的雪花实例上有一个数据库SFOPT_TEST.该数据库有两个架构AUDITS和PARAMS. 模式AUDITS使用Sqlalchemy declarative_base() - 创建了这样的表 class AccountUsageLoginHistory(Base): ''' This model will store the account parameters of the customers instances. ''' __tablename__ = constants.TABLE_ACCOUNT_USAGE_LOGIN_HISTORY __table_args__ = { 'schema' : os.environ.get('SCHEMA_NAME_AUDITS') } id = Column(Integer, Sequence('id_login_history'), prima
22 2024-04-22
编程技术问答社区
为什么我不能在 Python 工作表中导入 Pandas?
我在做import pandas as pd时会遇到此错误. 在 主ModulenotFoundError:在功能中没有名为" Pyarrow"的模块 python_worksheet with Handler main 不允许进口大熊猫和在雪花中进行熊猫操纵? 解决方案 第三方软件包可通过Anaconda Channel获得,pandas列出了. 使用第三方套餐 在您开始使用雪花内的anaconda提供的软件包之前,您必须确认雪花第三方术语. 您必须是组织管理员(使用Orgadmin角色)才能接受该条款.您只需要接受一次雪花帐户的条款即可.请参阅启用帐户的Orgadmin角色. 登录Snowsight. 选择管理»计费和条款. 在 anaconda 部分中,选择启用. 在 Anaconda软件包对话框中,单击链接以查看Snowflake第三方条款页面. 如果您同意该条款,请选择确认并继续. Python工作表:
66 2024-04-22
编程技术问答社区
如何根据条件将数据帧中的一列切分为多个系列
我有一个看起来像这样的数据框架: 'A' diff('A') 0 1 NaN 1 2 1 2 5 3 3 2 -3 4 4 2 5 6 2 6 1 -5 7 7 6 8 9 2 我想获得的是这样的东西: 'B' 0 1 1 2 2 5 'C' 0 2 1 4 2 6 'D' 0 1 1 7 2 9 我想将列'A'切成几个新列;切成原始列的条件是列diff('A')上的值为负.我当时认为迭代器应通过数据框,并且每当遇到diff('A')中的负值时,它都应将列切成码并将其传递到系列,然后继续直到到达列的末端. 有人有什么想法吗?
16 2024-04-22
编程技术问答社区
使用 MultiIndex 为 Pandas DataFrame 的整列赋值?
我有一个带有多索引的dataframe(称为midx_df),我想从另一个dataframe(称为sour_df)的整列中分配带有单级索引到midx_df的值. . sour_df的所有索引值都存在于midx_df的顶级索引中,我需要指定使用相同级别-1索引的所有级别索引以添加/修改行的所有值. 例如: beg_min = pd.to_datetime('2023/03/18 18:50', yearfirst=True) end_min = pd.to_datetime('2023/03/18 18:53', yearfirst=True) minutes = pd.date_range(start=beg_min, end=end_min, freq='1min') actions = ['Buy', 'Sell'] m_index = pd.MultiIndex.from_product([minutes, actions], names=['time', 'act
18 2024-04-22
编程技术问答社区
Pandas 中的正则表达式: 获取空格和冒号之间的子串
我有一个带有列store的熊猫数据框.它包含一个看起来像这样的商店列表: H-E-B 721:1101 W STAN SCHLUETER LOOP,KILLEEN,TX H-E-B PLUS 39:2509 N MAIN ST,BELTON,TX 我想要上述示例中的721和39的商店编号. 这是我获得它的过程: 找到结肠的位置. 向后切片直到到达空间. 如何在python/pandas中这样做?我猜想我需要使用正直,但我不知道如何开始. 解决方案 您可以将str.extract与(\d+):正则用: df['number'] = df['store'].str.extract('(\d+):', expand=False).astype(int) 输出: store number 0 H-E-B 721:1101 W STAN SCHLUET
10 2024-04-22
编程技术问答社区
在ML.NET中是否有与pandas pivot_table()函数相当的功能?
我刚刚开始尝试使用ML.NET学习,并且我有一个代表客户购买的产品的CSV,因此我有用于用户ID和Productid的列.我想对此进行更改,以便我为每个用户的每个产品ID和行都有列,其值为1或NAN,具体取决于他们是否购买了该商品. ML.NET中的Idataview是否可以?谢谢 解决方案 Take a look at custompapping .您可以基于其他列的自定义逻辑添加列,例如在下面的insurdThirty中,根据年龄的值添加. 的值. // Get a small dataset as an IEnumerable and convert it to an IDataView. var samples = new List { new InputData { Age = 26 }, new InputData { Age = 35 },
12 2024-04-22
编程技术问答社区
Pandas Dataframe或类似的C#.NET版本
我目前正在努力实现较早在Python内置的Gurobi线性程序模型的C#版本.我有许多CSV文件,从中我从中导入数据并创建PANDAS DataFrames,并且我正在从这些数据范围内获取列来创建我在线性程序中使用的变量.用于使用DataFrames创建变量的Python代码如下: dataPath = "C:/Users/XYZ/Desktop/LinearProgramming/TestData" routeData = pd.DataFrame.from_csv(os.path.join(dataPath, "DirectLink.csv"), index_col=None) #Creating 3 Python-dictionaries from Python Multi-Dict using column names and keeping RouteID as the key routeID, transportCost, routeType = multidict({
22 2024-04-14
编程技术问答社区
如何将熊猫数据框导出到具有二进制格式的文件中,然后读取C ++?
我有一个带有不同数据类型的熊猫数据框. 我想在C ++中使用它,出于性能原因,我想以二进制格式阅读它. 例如: In [4]: df = pd.DataFrame(np.reshape(range(9), (3, 3))) In [5]: df Out[5]: 0 1 2 0 0 1 2 1 3 4 5 2 6 7 8 In [6]: df['ticker'] = 'helloworld' In [7]: df['float'] = 1.12 In [8]: df Out[8]: 0 1 2 ticker float 0 0 1 2 helloworld 1.12 1 3 4 5 helloworld 1.12 2 6 7 8 helloworld 1.12 我尝试了numpy to_bytes,但似乎不起作用. with open('a.bin', 'wb')
18 2024-04-09
编程技术问答社区
读取大文件并制作字典
我有一个大文件,我需要阅读并从中制作字典.我希望这尽可能快.但是,我在Python中的代码太慢.这是一个显示问题的最小示例. 首先制作一些假数据 paste largefile.txt 现在,这是一块最小的python代码,可以在其中读取并制作一个字典. import sys from collections import defaultdict fin = open(sys.argv[1]) dict = defaultdict(list) for line in fin: parts = line.split() dict[parts[0]].append(parts[1]) 时间: time ./read.py largefile.txt real 0m55.746s 但是,不是I/O绑定为: time cut -f1 largefile.t
6 2024-04-08
编程技术问答社区
如何在pandas Dataframe, Python3.x中把 "字节 "对象翻译成字面字符串?
i有一个python3.x pandas dataframe,某些列是字符串,如字节(例如python2.x中) import pandas as pd df = pd.DataFrame(...) df COLUMN1 .... 0 b'abcde' .... 1 b'dog' .... 2 b'cat1' .... 3 b'bird1' .... 4 b'elephant1' .... 当我通过df.COLUMN1列访问时,我会看到Name: COLUMN1, dtype: object 但是,如果我通过元素访问,则是"字节"对象 df.COLUMN1.ix[0].dtype Traceback (most recent call last): File "", line 1, in
8 2024-04-05
编程技术问答社区
python pandas中的deque
我正在使用python的deque()实现一个简单的圆形缓冲区: from collections import deque import numpy as np test_sequence = np.array(range(100)*2).reshape(100,2) mybuffer = deque(np.zeros(20).reshape((10, 2))) for i in test_sequence: mybuffer.popleft() mybuffer.append(i) do_something_on(mybuffer) 我想知道是否有一种简单的方法可以使用Series(或DataFrame)在熊猫中获得相同的东西.换句话说,如何在末端有效添加一排,并在Series或DataFrame的开头删除一排? 编辑:我尝试了: myPandasBuffer = pd.DataFrame(columns=('A','B'), da
10 2024-04-04
编程技术问答社区