用R语言从搜索结果的URL中提取文本
我有点了解,但不知道专业人士.我正在使用R. 进行短信项目. 我用关键字搜索了美联储网站,例如"通货膨胀".搜索结果的第二页具有url:{此页面有10个搜索结果(10个URL).我想在R中编写一个代码,该代码将"读取"与这10个URL中的每个URL相对应的页面,并将文本从这些网页提取到.txt文件.我唯一的输入是上述URL. 感谢您的帮助.如果有任何类似的旧帖子,请也请我介绍.谢谢. 解决方案 这是如何取消此页面的基本思想.尽管如果有很多页面要报废,则R可能会很慢. 现在,您的问题有些模棱两可.您希望最终结果为 .txt 文件.哪些具有PDF的网页???好的.您仍然可以使用此代码,并将文件扩展名更改为具有PDFS的网页的PDF. library(xml2) library(rvest) urll="https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&tex
0 2023-12-01
编程技术问答社区
如何在R中从文档搜索的网络界面中刮取/自动下载PDF文件?
我正在使用R编程语言进行NLP(自然语言过程)分析 - 为此,我需要在Internet上" Webscrape"公开信息. 最近,我从我使用的网站上学习了如何" Webscrape"一个PDF文件: library(pdftools) library(tidytext) library(textrank) library(dplyr) library(tibble) #this is an example of a single pdf url % unnest_tokens(sentence, text, token = "sentences") %>%
0 2023-12-01
编程技术问答社区
自动确定一个网站页面的自然语言,给定其URL
我正在寻找一种自动确定网站页面使用的自然语言的方法. 在Python中,一个函数类似: def LanguageUsed (url): #stuff 返回语言指定符(例如英语的'en','jp'用于日语等... ) 结果摘要: 我有一个合理的解决方案在Python中使用 pypi for oice.langdet . 它在区分英语与非英语方面做得不错,这是我目前所需的.请注意,您必须使用Python Urllib获取HTML.另外,Oice.langdet是GPL许可. 对于更通用的解决方案,如其他人所建议的那样,请参见此 Google自然语言检测API效果很好(如果不是我见过的最好的).但是,它是JavaScript,他们的TOS禁止自动使用其使用. 解决方案 这通常是通过使用字符n-gram模型来完成的.您可以找到在这里对于Java.如果您需要一些帮助将其转换为Python,请询问.希望它有帮助. 其他解决方案 您最好的选择是使用
0 2023-11-29
编程技术问答社区
将GMM-UBM的分数转换为等效的准确率百分比
我为扬声器识别目的构建了一个GMM-UBM模型.适用于每个说话者的模型的输出,通过对数似然比计算得出的一些分数.现在,我想将这些似然得分转换为0到100之间的同等数字.有人可以指导我吗? 解决方案 没有直接的公式.您可以做简单的事情,例如 prob = exp(logratio_score) ,但这些可能无法反映您数据的真实分布.您的样品的计算概率百分比不会均匀分布. 理想情况下,您需要获取一个大数据集并收集有关您对分数的接受/拒绝率的统计信息.然后,一旦构建直方图,您就可以通过该频谱图将得分差异标准化,以确保如果您看到一定的分数差异,则可以接受30%的主题.该归一化将使您能够创建均匀分布的概率百分比.请参阅例如如何如何在存在零细胞的情况下,计算2x2表的似然比的置信区间 这个问题在扬声器识别系统中很少解决,因为置信区间不是您真正想要显示的.您需要一个简单的接受/拒绝决定,为此,您需要知道虚假拒绝和接受费率的数量.因此,仅找到一个阈值,而不是建立整个分布是足
0 2023-11-25
编程技术问答社区
如何检测同音字
我是语音处理的新手,但是想知道如何检测到同句.我正在寻找一个API,该API在两个单词之间在两个单词之间提供相似之处. 例如:" to"和"二",就它们对"对"和""的声音的声音高度相似. 解决方案 您可能需要尝试在原始字符串上计算编辑距离,而是在发音上,就像它们在cmu发音词典中可用,at http://www.speech.cs.cmu.edu/cgi-bin/cmudict 其他解决方案 以下用英文发音或 odephone .您可以使用python软件包,例如 fuzzy 实现了几种索引算法. import fuzzy
0 2023-11-25
编程技术问答社区
在Azure上运行.exe
我有一个在Azure上发布的Blask Web应用程序.在我的项目中,我有一个" senna-win32.exe",它吸引了输入并发出一些输出.我调用此.EXE的代码看起来像这样: senna_path = 'senna-win32.exe' p = subprocess.Popen(senna_path,stdout=subprocess.PIPE,stdin=subprocess.PIPE, stderr=subprocess.PIPE) stdout = p.communicate(input=bytes(userInput, 'utf-8'))[0] inList = stdout.decode() 它似乎在我当地的PC上工作,但是在Azure上,它不会引发任何问题,但什么也没做. 我不能在Azure上执行.exe文件吗?这是一个网络应用程序,而不是云服务,我真的在努力避免使用Web/Worker角色,因为.EXE并没有完成很多处理. 解决方案 正
2 2023-11-20
编程技术问答社区
可视化解析树结构
我想从 opennlp 作为树结构可视化中显示解析(POS标记).在下面,我从 opennlp 提供了解析树,但我无法将其绘制为install.packages( "http://datacube.wu.ac.at/src/contrib/openNLPmodels.en_1.5-1.tar.gz", repos=NULL, type="source" ) library(NLP) library(openNLP) x
0 2023-11-20
编程技术问答社区
图书翻译数据格式
我正在考虑将一本书从英语翻译成我的母语.我可以翻译好,我对vim作为文本编辑器感到满意.我的问题是我想以某种方式保留语义,即我的翻译的哪一部分与原始的相对应. 我基本上可以创建一种简单的基于XML的标记语言,看起来像 This is an example sentence. Tämä on esimerkkilause. 现在,这可能会带来好处,但我认为编辑不会很有趣. 我能想到的另一种可能性是将原始文件和翻译保存在单独的文件中.如果我在每个翻译块之后添加一个newline并保持线路编号一致,那么编辑将很容易
0 2023-11-19
编程技术问答社区
tfidf向量器进程显示错误
我正在从事非发动语料库分析,但面临几个问题.这些问题之一是TFIDF_Vectorizer.在进口有关的自由主义者之后,我处理了遵循代码以获取结果 contents = [open("D:\test.txt", encoding='utf8').read()] #define vectorizer parameters tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000, min_df=0.2, stop_words=stopwords, use_idf=True, tokenizer=tokenize_and_stem, ngram_range=(3,3)) %time tfidf_matrix = tfidf_vectorizer.fit_transform(con
0 2023-11-17
编程技术问答社区
scikit-learn's TfidfVectorizer的在线版本
我希望使用Scikit-Learn的HashingVectorizer,因为它非常适合在线学习问题(文本中的新令牌可以映射到"桶").不幸的是,Scikit-Learn中包含的实现似乎不包括对TF-IDF功能的支持.通过A TfidfTransformer传递矢量机输出是使在线更新与TF-IDF功能一起使用的唯一方法,还是那里有更优雅的解决方案? 解决方案 本质上您无法以在线方式使用TF IDF,因为所有新文档的IDF都会随着每个新文档而改变 - 这意味着对所有先前的文档进行重新访问和重新培训,这将没有长时间在线. 可能有一些近似值,但是您必须自己实施. 其他解决方案 您可以进行"在线" tf-idf,与接受答案中所说的相反. 实际上,每个搜索引擎(例如Lucene)都可以. 如果假设您在内存中有TF-IDF 向量. 搜索引擎(例如Lucene)自然避免将所有数据保存在内存中.相反,他们一次加载一列(由于稀疏性不多). IDF琐碎地来自倒置列表的长
0 2023-11-17
编程技术问答社区
Python中的NLP。矢量化后从SelectKBest获取词名
我似乎找不到解决我的确切问题的答案.谁能帮忙? 简化的我的dataFrame(" df"):它具有2列:一个是一堆文本(" notes"),另一个是二进制变量,指示分辨率时间是否高于平均水平( " Y"). 我在文字上做了袋子: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(lowercase=True, stop_words="english") matrix = vectorizer.fit_transform(df["Notes"]) 我的矩阵是6290 x 4650. feature_names = vectorizer.get_feature_names() feature_names 接下来,我想知道这4650个中的哪一个最与平均水平的分辨率时间相关.并减少我可能想在预测模型中使用的矩阵.我进行了卡方测试,以找到最重要
0 2023-11-17
编程技术问答社区
计算嵌套字典中的词/文件向量之间的距离
我有一个嵌套的词典: myDict = {'a': {1:2, 2:163, 3:12, 4:67, 5:84}, 'about': {1:27, 2:45, 3:21, 4:10, 5:15}, 'apple': {1:0, 2: 5, 3:0, 4:10, 5:0}, 'anticipate': {1:1, 2:5, 3:0, 4:8, 5:7}, 'an': {1:3, 2:15, 3:1, 4:312, 5:100}} 外键是一个单词 内部密钥是文件/文档ID 值是单词(外部键发生) 的次数 如何计算内部键的平方值之和? 2^2 + 27^2 + 0^2 + 1^2 + 3^2 因为内键1在" A"中出现2次,在"大约"中27次,苹果0次,1次,"预期",在'an''' 中3次 给定嵌套的字典对象,我如何找到一对文件/文档之间的距离? 例如,文件/文档ID
4 2023-11-17
编程技术问答社区
使用平均法从word2vec词向量计算句子向量的具体步骤是什么?
初学者问题,但我对此有些困惑.希望这个问题的答案也可以使NLP中的其他初学者受益. 这里还有一些细节: 我知道您可以从Word2Vec生成的单词向量计算句子向量.但是,使这些句子向量的实际步骤是什么.谁能提供一个直观的示例,然后进行一些计算来解释此过程? eg:假设我有一个带有三个词的句子:今天很热.并假设这些单词具有假设的矢量值:(1,2,3)(4,5,6)(7,8,9).通过执行这些单词向量的组件平均,我是否会获得句子向量?如果向量的长度不同,例如:(1,2)(4,5,6)(7,8,9,23,76)对于这些情况,平均过程是什么样的? 解决方案 通过平均文字向量创建为长度文本(句子/段落/文档)创建向量是一种简单的方法. (这不是捕捉含义的阴影,但很容易做到.) 使用Gensim库,它可以很简单: import numpy as np from gensim.models.keyedvectors import KeyedVectors wv =
2 2023-11-17
编程技术问答社区
在R中计算两个单词的余弦相似度?
我有一个文本文件,想为文件中的每个单词创建语义向量.然后,我想提取大约500对单词的余弦相似性. R中最好的包装是什么? 解决方案 如果我正确理解您的问题,则需要两个单词向量的余弦相似性.让我们从两个单词的余弦相似开始: library(stringdist) d d d 1 2 3 2 3 3 1 2 4 3 1 2 出于您的目的,您可以简单地使用此类内容 stringdist(c("ca","abc"),c("aa","abc"),method="cosine") 结果是一方面ca和aa之间的距离和abc与ab
0 2023-11-17
编程技术问答社区
如何使用词的向量表示(如从Word2Vec等获得的)作为分类器的特征?
我熟悉使用弓形功能进行文本分类,其中我们首先找到了语料库的词汇大小,这成为我们功能向量的大小.对于每个句子/文档及其所有组成词,我们然后根据该句子/文档中该单词的不存在/存在为0/1. 但是,既然我正在尝试使用每个单词的向量表示,那么正在创建一个全球词汇必需品吗? 解决方案 假设向量的大小为n(通常在50或500之间).概括传统弓的幼稚方式只是用n零代替0位(弓),然后用真实的向量代替1位(弓)(例如,word2vec).那么功能的大小将是n * | v | (与| V |在弓上的特征向量相比,其中| v |是词汇的大小).这个简单的概括应该很好地适用于体面数量的培训实例. 为了使特征向量较小,人们使用各种技术,例如使用具有各种操作的向量的递归组合. (请参阅递归/重复的神经网络和类似技巧,例如: .edu/〜khashab2/files/2013_rnn.pdf 或 http://papers.nips.cc/paper/4204-dynamic-pooling-a
0 2023-11-17
编程技术问答社区
在python中加载预训练的手套向量
我从Internet下载了预之前的手套矢量文件.它是一个.txt文件.我无法加载并访问它.使用Gensim加载和访问Word vector二进制文件很容易,但是当它是文本文件格式时我不知道该怎么做. 解决方案 手套模型文件以词 - 矢量格式为单词.您可以打开文本文件以验证这一点.这是您可以用来加载预验证的手套文件的小片段: import numpy as np def load_glove_model(File): print("Loading Glove Model") glove_model = {} with open(File,'r') as f: for line in f: split_line = line.split() word = split_line[0] embedding = np.array(split_line[1:], dtype
0 2023-11-17
编程技术问答社区
如何将一个句子或一个文件转换为矢量?
我们有将单词转换为向量的模型(例如Word2Vec模型).是否存在将句子/文档转换为向量的类似模型,也许是使用单个单词学习的向量? 解决方案 1) Skip gram method: 纸上以及使用它的工具, google Word2vec 2)使用 lstm-rnn 形成句子的语义表示. 3)sentences and documents.本文介绍了段落向量.它基本上是一种无监督的算法,从可变长度的文本(例如句子,段落和文档)中学习固定长度的特征表示. 4)尽管此 paper 不形成句子/段落向量,但很简单就可以做到这一点.一个人只能插入单个单词矢量( glove word向量被发现可以提供最佳性能),然后可以形成整个句子/段落的向量表示. 5)使用 cnn 总结文档. 其他解决方案 这一切都取决于: 您正在使用哪种向量模型 模型的目的是什么 您将单词向量组合到文档矢量中的创造力 如果您使用Word2Vec生成了模型,则可以尝试:
0 2023-11-17
编程技术问答社区
使用模型时的ValueReror即使对向量对齐,
我正在尝试建立用于文本分类的天真贝叶斯模型. 这是我正在使用的数据的示例: df_some_observations = filtered_training.sample(frac=0.0001) df_some_observations.to_dict() 输出看起来像这样: {'Intitulé (Ce champ doit respecter la nomenclature suivante : Code action – Libellé)_x': {40219: 'aegua00268 format oper scad htbhta fonction avance', 16820: 'aeedf50490 sort conflit facon construct', 24771: '4022mps192 prepar a lhabilit electr boho indic v personnel non elec', 34482: '3095m
0 2023-11-13
编程技术问答社区
如何使用Stanford LexParser处理中文文本?
我似乎无法获得正确的输入编码,用于 如何将斯坦福·雷克斯帕尔(Stanford Lexparser)用于中文文字? 我已经完成了以下操作以下载该工具: $ wget http://nlp.stanford.edu/software/stanford-parser-full-2015-04-20.zip $ unzip stanford-parser-full-2015-04-20.zip $ cd stanford-parser-full-2015-04-20/ 我的输入文本在UTF-8中: $ echo "应有尽有 的 丰富 选择 定 将 为 您 的 旅程 增添 无数 的 赏心 乐事 。" > input.txt $ echo "应有尽有#VV 的#DEC 丰富#JJ 选择#NN 定#VV 将#AD 为#P 您#PN 的#DEG 旅程#NN 增添#VV 无数#CD 的#DEG 赏心#NN 乐事#NN 。#PUNCT" > pos-input.txt 根据
0 2023-11-12
编程技术问答社区
Java文本输出中的UTF-8编码问题
我一直在努力测试高棉unicode Wordbreaker的各种解决方案(高棉之间没有单词之间的空间,这使得拼写检查和语法检查变得困难,并且从传统的高棉人转换为高棉人. ). ). ). 我得到了一些现在在线的源代码(我正在以很小的规模测试代码,而我在输出方面遇到了麻烦. 这是输入: ជាជាបាន 这是最终的输出: ជាជា មាន 这些单词实际上是正确拆分的,但是一个单词是混乱的. 输出应该看起来像这样: ជាជានឹងបាន,ជាជាមាន 有人对为什么输出乱七八糟? 这是带有非常小的高棉词的代码,要拆分的单词: .org/khmerwordsplit.zip 这是运行它的方法: java -jar wordsplit.jar khmerlexicon.csv khmercolumns.txt >> results.txt 我非常感谢您到目前为止您对该项目提供的所有帮助 - 我希望很快能找到解决方案!
0 2023-11-12
编程技术问答社区