Hugginface变压器模块不被Anaconda识别
我正在使用Anaconda,Python 3.7,Windows 10. 我试图通过 我会遇到很多错误,具体取决于我卸载并重新安装的Pytorch和Transformers的位置(Anaconda/提示).最后尝试使用 conda安装pytorch torchvision cpuonly -c pytorch和 conda安装-c conda -forge变形金刚 我有一个错误: from transformers import BertTokenizer bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True) def tok(dataset): input_ids = [] attention_masks = [] sentences = dataset.Answer2EN.values labels = dataset
0 2024-01-26
编程技术问答社区
如何预先下载一个变压器模型
我想在烧瓶应用程序中执行文本生成任务,并在Web服务器上托管它,但是下载GPT模型时,弹性beanstalk托管EC2实例崩溃了,因为下载需要太多时间和内存 from transformers.tokenization_openai import OpenAIGPTTokenizer from transformers.modeling_tf_openai import TFOpenAIGPTLMHeadModel model = TFOpenAIGPTLMHeadModel.from_pretrained("openai-gpt") tokenizer = OpenAIGPTTokenizer.from_pretrained("openai-gpt") 这些是引起问题的问题. GPT约为445 MB.我正在使用变形金刚库.而不是在此行下载模型,我想知道我是否可以腌制该模型,然后将其捆绑为存储库的一部分.这个库有可能吗?否则,我该如何预加载此模型以避免我遇到的问题? 解决
拥抱面推理端点的性能极慢
i使用令我惊讶的是,一个对35个嵌入的请求花了7秒以上(根据Huggingface的日志).基于拥抱面支持的建议,我试图升级到2个CPU,但它的速度更慢(说实话,我不确定为什么他们认为一个请求会从另一个CPU中受益).接下来,我尝试了GPU.该请求现在需要2秒. 我必须缺少一些东西,因为似乎不可能在2秒内支付> 400美元/月的单个请求,而不是每秒提供数千个请求. 我想我一定会缺少某些东西,但我看不到它可能是什么. 我使用命令以以下格式提交请求: curl https://xxxxxxxxxxxxxx.us-east-1.aws.endpoints.huggingface.cloud -X POST -d '{"inputs": ["My paragraphs are of about 200 words on average", "Another paragraph", etc.]}' -H 'Authorization: Bearer xxxxxxxxxxxx
26 2023-12-11
编程技术问答社区
用于文档嵌入的最后几层长形器
使用Longformer API返回有限数量的层的正确方法是什么? 与基本情况不同 bert ,从退货中我还不清楚.键入如何仅获取最后的N层. 所以,我运行了这个: from transformers import LongformerTokenizer, LongformerModel text = "word " * 4096 # long document! tokenizer = LongformerTokenizer.from_pretrained('allenai/longformer-base-4096') model = LongformerModel.from_pretrained("allenai/longformer-base-4096") encoded_input = tokenizer(text, return_tensors="pt", max_length=4096, truncation=True) output = model(
6 2023-12-11
编程技术问答社区
Pytorch错误 "RuntimeError: index out of range: 试图访问有511行的表中的索引512"
我有句子可以使用sonte_vector()biobertembedding python模块进行矢量化( 文件 "/home/nobunaga/.local/lib/python3.6/site-packages/biobert_embedding/embedding.py", 第133行,句子_vector encoded_layers = self.eval_fwdprop_biobert(tokenized_text)文件"/home/nobunaga/.local/lib/python3.6/site-packages/biobert_embedding/embedding/embedding.py", 第82行,eval_fwdprop_biobert encoded_layers,_ = self.model(tokens_tensor,segments_tensors)文件 "/home/nobunaga/.local/lib/python3.6/site-packag
运行py文件时,windows spyder出现无效语法错误
我正在尝试从 page .我将存储库克隆到目录C:/Users/nn/Desktop/BERT/transformers-master中.我在Windows机器上使用Spyder IDE.为什么我确实以下错误?如何解决?我如何输入诗的初始部分? import os os.chdir('C:/Users/nn/Desktop/BERT/transformers-master/examples') os.listdir()# It shows run_generation.py file python run_generation.py \ --model_type=gpt2 \ --length=100 \ --model_name_or_path=gpt2 \ python run_generation.py \ --model_type=gpt2 \ --length=100 \ --model_name_or_path=gp
0 2023-12-06
编程技术问答社区
BERT令牌的重要性测量问题。Grad是没有的
我试图通过比较令牌嵌入毕业生值来衡量令牌的重要性.因此,要获得毕业生,我已经复制了bertmodel的2.8.0并进行了一些更改: huggingface transformers 2.8.0 BERT 代码: embedding_output = self.embeddings( input_ids=input_ids, position_ids=position_ids, token_type_ids=token_type_ids, inputs_embeds=inputs_embeds ) embedding_output = embedding_output.requires_grad_(True) # my code encoder_outputs = self.encoder( embedding_output, attentio
12 2023-10-25
编程技术问答社区
培训新的 AutoTokenizer 拥抱脸
获取此错误:attributeError:'gpt2tokenizer'对象没有 属性'train_new_from_iterator' 与拥抱面部文档非常相似.我更改了输入,就是它(不应该影响它).它起作用一次. 2小时后回到它,但没有……什么都没改变.文档状态train_new_from_iterator仅与"快速"令牌一起使用,并且默认情况下,自动敲击器应该选择"快速"令牌.我最好的猜测是,这有一些麻烦.我还尝试降级变压器并重新安装到没有成功. DF只是文本的一列. from transformers import AutoTokenizer import tokenizers def batch_iterator(batch_size=10, size=5000): for i in range(100): #2264 query = f"select note_text from cmx_uat.note where id > {i * s
4 2023-10-25
编程技术问答社区
BertForSequenceClassification是如何对CLS向量进行分类的?
背景: 紧随其后的问题该模型使用代表分类任务的" [Cls]"令牌.根据论文: 每个序列的第一个令牌始终是特殊的分类 令牌([Cls]).与此令牌相对应的最终隐藏状态是 用作分类的聚合序列表示 任务. 查看HuggingFaces回购他们的bertforeSequenceCecraperification使用Bert Pooler方法: class BertPooler(nn.Module): def __init__(self, config): super().__init__() self.dense = nn.Linear(config.hidden_size, config.hidden_size) self.activation = nn.Tanh() def forward(self, hidden_states): # We "pool" the model by s
如何使用BertForMaskedLM或BertModel来计算一个句子的困惑度?
我想使用bertformaskedlm或bertmodel来计算句子的困惑,所以我写这样的代码: import numpy as np import torch import torch.nn as nn from transformers import BertTokenizer, BertForMaskedLM # Load pre-trained model (weights) with torch.no_grad(): model = BertForMaskedLM.from_pretrained('hfl/chinese-bert-wwm-ext') model.eval() # Load pre-trained model tokenizer (vocabulary) tokenizer = BertTokenizer.from_pretrained('hfl/chinese-bert-wwm-ext') sentence = "
试图为文本分类安装瓜纳科(PIP install guanaco),但会出现错误
我正在尝试安装guanaco语言模型Failed to build guanaco ERROR: Could not build wheels for guanaco, which is required to install pyproject.toml-based projects 如何安装语言模型并将其用于分类? 解决方案 您通过pip install guanaco安装的PYPI库不是一个由HuggingFace Tool支持的大型语言模型,它是: https://pypi.org/project/guanaco/ 要使用鸟粪模型,请参见import torch from peft import PeftModel from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaTokenizer, StoppingCriteria, StoppingCriteriaList, TextIt
如何从huggingface下载模型?
例如,我想在 https://huggingface.co/models 上下载bert-base-uncased但是找不到"下载"链接.还是无法下载? 解决方案 首次使用时,模型会自动缓存. 因此,要下载模型,您要做的就是运行模型卡(我选择了bert-base-uncased的相应型号卡). 在页面的右上方,您可以找到一个称为"在变压器中使用"的按钮,该按钮甚至为您提供示例代码,向您显示如何在Python中使用它.同样,对于bert-base-uncased,这为您提供以下代码段: from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")
12 2023-10-25
编程技术问答社区
huggingface变换器 RuntimeError: 没有名为'tensorflow.python.keras.engine.keras_tensor'的模块;
我正在寻找我有以下包裹 tensorflow.__version__ '2.2.0' keras.__version__ '2.4.3' 然后我安装了变压器 !pip install datasets transformers[sentencepiece] checkpoint = "bert-base-uncased/" from transformers import TFAutoModelForSequenceClassification Successfully installed datasets-1.17.0 dill-0.3.4 fsspec-2022.1.0 huggingface-hub-0.4.0 multiprocess-0.70.12.2 pyarrow-6.0.1 sacremoses-0.0.47 sentencepiece-0.1.96 tokenizers-0.10.3 transformers-4.15.0 xxhash-2.0.
4 2023-10-25
编程技术问答社区
如何为MLM和NSP在一个新的领域从头开始训练BERT?
我正在尝试使用我自己的数据集使用HuggingFace库从头开始训练BERT模型.我想以一种具有原始BERT模型的确切体系结构的方式训练该模型. 在原始论文中,它指出:" bert是针对两个任务进行训练的:预测随机掩盖的令牌(MLM),并预测两个句子是否相互关注(NSP). Scibert遵循与Bert相同的架构,但在科学文本上进行了预估." 我试图了解如何在上面的两个任务上训练模型.目前,我将模型初始化为以下: from transformers import BertForMaskedLM model = BertForMaskedLM(config=config) 但是,它只是用于传销,而不是NSP.我如何也可以使用NSP初始化和训练模型,或者我的原始方法很好? 我的假设是 用BertForPreTraining初始化(对于MLM和NSP)或 在完成BertForMaskedLM培训后, 使同一模型唯一地训练 BertForNextSente
如何用Hugging Face'的转化器管道重建没有IOB标签的文本实体?
我一直在想将拥抱面孔的管道用于NER(命名实体识别).但是,它正在返回Inserty-Outside-Beginning(IOB)格式的实体标签,但没有IOB标签.因此,我无法将管道的输出映射回我的原始文本.此外,输出以Bert令牌化格式掩盖(默认模型是Bert-large). 例如: from transformers import pipeline nlp_bert_lg = pipeline('ner') print(nlp_bert_lg('Hugging Face is a French company based in New York.')) 输出为: [{'word': 'Hu', 'score': 0.9968873858451843, 'entity': 'I-ORG'}, {'word': '##gging', 'score': 0.9329522848129272, 'entity': 'I-ORG'}, {'word': 'Face', '
为多标签任务的自定义数据集训练 BERT(基于伯特算法的无标注算法
我试图将BERT训练到一个自定义数据集,其标签以后将部署到拥抱面前.关于这样的性能指标,它遇到了错误: RuntimeError Traceback (most recent call last) in () 133 134 # Train the model --> 135 trainer.train() 136 137 /usr/local/lib/python3.9/dist-packages/torch/nn/functional.py in binary_cross_entropy_with_logits(input, target, weight, size_average, reduce, reduction, pos_weight) 3163 raise
4 2023-10-25
编程技术问答社区
TokenClassificationChunkPipeline 引发错误:'BatchEncoding' 对象不是迭代器
之后 huggingface匿名教程. 使用Pytorch 2.0.0和Transformers-4.28.1 运行代码原样,我会在自定义管道上遇到错误: def anonymize(text): ents = pipe(text) # this errors out ... TypeError: 'BatchEncoding' object is not an iterator 我意识到这是一个令牌问题, class TokenClassificationChunkPipeline(TokenClassificationPipeline): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) def preprocess(self, sentence, offset_mapping=None): model_inputs = self.tokeni
2 2023-10-24
编程技术问答社区
TypeError: '<'在'torch.device'和'int'的实例之间不支持;
2023-01-25 08:21:21,659 - ERROR - Traceback (most recent call last): File "/home/xyzUser/project/queue_handler/document_queue_listner.py", line 148, in __process_and_acknowledge pipeline_result = self.__process_document_type(message, pipeline_input) File "/home/xyzUser/project/queue_handler/document_queue_listner.py", line 194, in __process_document_type pipeline_result = bill_parser_pipeline.process(pipeline_input) File "/home/xyzU
4 2023-10-24
编程技术问答社区
ValueError: TextEncodeInput必须是Union[TextInputSequence, Tuple[InputSequence, InputSequence]]-Tokenizing BERT / Distilbert错误
def split_data(path): df = pd.read_csv(path) return train_test_split(df , test_size=0.1, random_state=100) train, test = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() test_texts, test_labels = test['text'].to_list(), test['sentiment'].to_list() train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=0.1, random_state=100) from transf
微调DistilBertForSequenceClassification: 没有学习,为什么损失没有变化?权重没有更新?
我对Pytorch和Huggingface-Transformers是相对较新的,并在此 kagaggle上实验-dataset . from transformers import DistilBertForSequenceClassification import torch.optim as optim import torch.nn as nn from transformers import get_linear_schedule_with_warmup n_epochs = 5 # or whatever batch_size = 32 # or whatever bert_distil = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased') #bert_distil.classifier = nn.Sequential(nn.Linear(in_feature
4 2023-10-19
编程技术问答社区