将句子分割成单词,但在C#中遇到了标点符号的问题
我看过几个类似的问题,但我正在尝试实现这一目标. 给定一个字符串,str ="月亮是我们的天然卫星,即它在地球上旋转!" 我想提取单词并将它们存储在数组中. 预期的数组元素将是此. the moon is our natural satellite i.e. it rotates around the earth 我尝试使用string.split(','\ t','\ r'),但这无法正常工作.我还尝试删除.和其他标点符号,但我想要一个诸如" I.E."之类的字符串.也可以解析.实现这一目标的最佳方法是什么? 我还尝试使用Regex.split,但无济于事. string[] words = Regex.Split(line, @"\W+"); 肯定会朝着正确的方向欣赏一些轻推. 解决方案 正则解决方案. (\b[^\s]+\b) ,如果您真的想要在i.e.上修复最后一个.,则可以使用此. ((\b[^\s]+\
0 2024-04-14
编程技术问答社区
Python自动完成用户输入
我有一个团队名单.假设他们是 teamnames=["Blackpool","Blackburn","Arsenal"] 在程序中,我询问用户他想和哪个团队一起做.我希望Python与用户的输入相匹配并打印它. 因此,如果用户写" bla"并按下 enter ,则应在该空间中自动打印布莱克本团队,并在代码的其余部分中使用.所以例如; 您的选择:bla(用户写" bla",然后按 enter ) 它应该看起来像 您的选择:布莱克本(程序完成其余的单词) 解决方案 teamnames=["Blackpool","Blackburn","Arsenal"] user_input = raw_input("Your choice: ") # You have to handle the case where 2 or more teams starts with the same string. # For example the user inpu
0 2024-03-20
编程技术问答社区
Maven:如果pom.xml中的句子的属性标记
如果设置了环境变量,我想设置属性.我在上面搜索了很多东西,我发现的只是与下面的代码相似,但是我一直遇到错误: [致命]不可避免的pom y:\ maven \ maven \ parent-pom \ pom.xml:必须立即立即跟随end_tag而不是start_tag(位置:start_tag:start_tag s een ... roperties" \ r \ n classPathRef =" maven.plugin.classpath"/> ... @ 29:55) @ line 29,列 55 那是我正在尝试的代码,它在pom.xml内部,我运行了命令 - mvn - Errors部署 当然,如果您对如何在pom.xml中设置属性的其他建议,我将很乐意获得其他解决方案. 谢谢 eli .....
20 2023-12-21
编程技术问答社区
BERT句子嵌入:如何获得句子嵌入矢量
我正在使用模块bert-for-tf2,以将BERT模型作为Tensorflow 2.0中的Keras层包裹,我遵循您的指南将BERT模型作为Keras层实现. 我正在尝试从句子中提取嵌入;就我而言,句子是"你好" 我对模型预测的输出有一个疑问;我写了这个模型: model_word_embedding = tf.keras.Sequential([ tf.keras.layers.Input(shape=(4,), dtype='int32', name='input_ids'), bert_layer ]) model_word_embedding .build(input_shape=(None, 4)) 然后我想提取上面写的句子的嵌入: sentences = ["Hello"] predict = model_word_embedding .predict(sentences) 该对象
8 2023-12-11
编程技术问答社区
使用平均法从word2vec词向量计算句子向量的具体步骤是什么?
初学者问题,但我对此有些困惑.希望这个问题的答案也可以使NLP中的其他初学者受益. 这里还有一些细节: 我知道您可以从Word2Vec生成的单词向量计算句子向量.但是,使这些句子向量的实际步骤是什么.谁能提供一个直观的示例,然后进行一些计算来解释此过程? eg:假设我有一个带有三个词的句子:今天很热.并假设这些单词具有假设的矢量值:(1,2,3)(4,5,6)(7,8,9).通过执行这些单词向量的组件平均,我是否会获得句子向量?如果向量的长度不同,例如:(1,2)(4,5,6)(7,8,9,23,76)对于这些情况,平均过程是什么样的? 解决方案 通过平均文字向量创建为长度文本(句子/段落/文档)创建向量是一种简单的方法. (这不是捕捉含义的阴影,但很容易做到.) 使用Gensim库,它可以很简单: import numpy as np from gensim.models.keyedvectors import KeyedVectors wv =
2 2023-12-11
编程技术问答社区
仅当列不为null时加入列
我有一个SQL Server表: ------------------------------------------------------------------- PERSON ------------------------------------------------------------------- NAME | PHONE | PHONE1 | PHONE2 | PHONE_CONCAT ------------------------------------------------------------------- Name1 | 12345 | Null | Null | Null Name2 | Null | 54774 | Null | Null Name3 | Null | Null |
14 2023-10-27
编程技术问答社区
Python 3-从摩尔斯码翻译时,如何大写每个句子的首字母
我试图将莫尔斯代码转换为单词和句子,这一切都很好...除了一件事.我的整个输出是较低的,我希望能够大写每个句子的每个第一个字母. 这是我当前的代码: text = input() if is_morse(text): lst = text.split(" ") text = "" for e in lst: text += TO_TEXT[e].lower() print(text) 拆分列表中的每个元素都等于字符(但在莫尔斯(Morse)中)而不是一个单词. 'to_text'是字典.有人对此有简单的解决方案吗?我是编程和Python的初学者,所以我可能不了解某些解决方案... 解决方案 保持旗帜告诉您这是否是新句子的第一个字母.用它来决定该字母是否应该是上案例. text = input() if is_mor
6 2023-10-25
编程技术问答社区
将中文文件分割成句子
我必须将中文文本分为多个句子.我尝试了Stanford DocumentPreprocessor.它对英语的工作效果很好,但对中文效果不佳. 请让我知道中文的任何好句子拆分器,最好是在Java或Python中. 解决方案 在Python中使用一些正则技巧(C.F. import re paragraph = u'\u70ed\u5e26\u98ce\u66b4\u5c1a\u5854\u5c14\u662f2001\u5e74\u5927\u897f\u6d0b\u98d3\u98ce\u5b63\u7684\u4e00\u573a\u57288\u6708\u7a7f\u8d8a\u4e86\u52a0\u52d2\u6bd4\u6d77\u7684\u5317\u5927\u897f\u6d0b\u70ed\u5e26\u6c14\u65cb\u3002\u5c1a\u5854\u5c14\u4e8e8\u670814\u65e5\u7531\u70ed\u5e26\u
4 2023-10-23
编程技术问答社区
使用Spacy进行自定义句子分割
我是Spacy和NLP的新手.我在使用Spacy进行句子细分时面对以下问题. 我试图将文字引入句子中包含编号列表(在编号和实际文本之间的空间),如下所示. import spacy nlp = spacy.load('en_core_web_sm') text = "This is first sentence.\nNext is numbered list.\n1. Hello World!\n2. Hello World2!\n3. Hello World!" text_sentences = nlp(text) for sentence in text_sentences.sents: print(sentence.text) 输出(1.,2.,3.被视为单独的行)是: This is first sentence. Next is numbered list. 1. Hello World! 2. Hello World2!
14 2023-10-23
编程技术问答社区
用PHP从文本文件中创建表格
我需要创建一个带有文本文件边界的表(每次有人完成填充表格时,都会更新此文本文件.一行,一个人): Herard|TRO789|Suzuki|France|Gendolfina|Fresko|food|500|2015-04-25 14:40 Bob|MGA789|Mercedes|Latvia|Polaris|Dread|parts|1000|2015-04-26 16:15 我已经创建了一个脚本,该脚本单独读取每个单词,但不知道如何将它们放在表格上:
16 2023-10-19
编程技术问答社区
句子结构的识别-拼写
我打算使用Spacy和Textacy来识别英语中的句子结构. 例如: 猫坐在垫子上-SVO上,猫跳了起来,拿起饼干-SVV0. 猫吃了饼干和饼干. - svoo. 该程序应该读取一个段落,并将每个句子的输出返回为SVO,SVOO,SVVO或其他自定义结构. 到目前为止的努力: # -*- coding: utf-8 -*- #!/usr/bin/env python from __future__ import unicode_literals # Load Library files import en_core_web_sm import spacy import textacy nlp = en_core_web_sm.load() SUBJ = ["nsubj","nsubjpass"] VERB = ["ROOT"] OBJ = ["dobj", "pobj", "dobj"] text = nlp(u'The cat sat on the mat
16 2023-10-18
编程技术问答社区
如何将一个句子划分为Java部分?
如何将像"He and his brother playing football."这样的句子分为几个部分,例如"He and","and his","his brother","brother playing"和"playing football".可以使用Java吗? 可以做到这一点 解决方案 假设"单词"总是被一个空间隔开.使用String.split() String[] words = "He and his brother playing football.".split("\\s+"); for (int i = 0, l = words.length; i + 1
12 2023-10-02
编程技术问答社区
R 将语料库分解成句子
我有许多PDF文档,我已经阅读了具有Library tm的语料库.一个人如何将语料库分解为句子? 可以通过读取readLines的文件,然后是sentSplit qdap [*].该功能需要一个数据框架.它也需要放弃语料库并单独阅读所有文件. 我如何通过tm中的语料库传递sentSplit {qdap}?还是有更好的方法? 注意:库中有一个函数openNLP,现在是Maxent_Sent_Token_Annotator - 同样的问题:如何将其与语料库[tm]结合在一起?/p> 解决方案 我不知道如何重塑语料库,但这将是一个很棒的功能. 我想我的方法是这样的: 使用这些软件包 # Load Packages require(tm) require(NLP) require(openNLP) 我会将文本设置为句子函数如下: convert_text_to_sentences
50 2023-09-08
编程技术问答社区
C# 语音识别多个单词在一起?(识别一个句子)
我正在构建一个识别用户多个单词的应用程序;因此,使用识别的单词来汇总一个句子. 这是我到目前为止所拥有的: namespace SentenceRecognitionFramework__v1_ { public partial class Form1 : Form { SpeechRecognitionEngine recog = new SpeechRecognitionEngine(); SpeechSynthesizer sp = new SpeechSynthesizer(); public Form1() { InitializeComponent(); } private void btnListen_Click(object sender, EventArgs e) { Choic
10 2023-09-08
编程技术问答社区
防止spaCy将段落编号拆成句子
我正在使用spacy对使用段落编号的文本进行句子细分,例如: text = '3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.' 我试图强制Spacy的句子分段,以免将3.分为其自己的句子. 目前,以下代码返回三个单独的句子: nlp = spacy.load("en_core_web_sm") text = """3. English law takes a dim view of stealing stuff from the shops. Some may argue that this is a pity.""" doc = nlp(text) for sent in doc.sents: print("****", sent.text) 此返回: **** 3. **** Englis
6 2023-09-07
编程技术问答社区
如何用Spacy拆分文档的句子
我如何将文档(例如段落,书等)分解为句子. ,例如,"The dog ran. The cat jumped" ["The dog ran", "The cat jumped"]带有spacy? 解决方案 最新的答案是: from __future__ import unicode_literals, print_function from spacy.lang.en import English # updated raw_text = 'Hello, world. Here are two sentences.' nlp = English() nlp.add_pipe(nlp.create_pipe('sentencizer')) # updated doc = nlp(raw_text) sentences = [sent.string.strip() for sent in doc.sents] 其他解决方案 答案 import spacy n
16 2023-09-07
编程技术问答社区
我希望创建一个系统,我给出一个句子,系统就会吐出与我输入的句子意思相似的句子。
这是一个NLP问题,我想知道我应该如何进行. 问题有多困难? 我可以用同义词替换单词并检查语法是否正确? 解决方案 用同义词替换单词可能是第一件事,但是请注意不要错过多个单词的表达式和成语.另外,请确保您选择语音同一部分的同义词. 他们寻找一个好的解决方案他们查看/凝视/...用于一个好的解决方案 他们努力工作他们的工作/任务/…硬 只有在使用某种级别的语法分析时,才有可能更复杂的改性.您至少应该识别句子中的成分. 这是一些用于重新绘制的示例,这些示例考虑了句子的语法结构: 狗吃了我的作业我的作业被狗(钝化)吃掉了 狗的骨头被盗狗的骨头被盗(占有欲) 她给他发了一封信她给他发了一封信(动词补充更换) 我的名字是债券债券是我的名字(copular) 猫吃了蛋糕是猫吃了蛋糕(Cleft) 请看 contextors api 及其其他解决方案 这是一个非常困难的问题,它似乎不在常见的NLP SOTA模型的范围内,或者至
8 2023-09-03
编程技术问答社区
用Lucene SpanQueries进行句子感知搜索
是否可以使用lucene spanquery查找所有出现,其中术语" red"" green"和" blue"都出现在单个句子中? 我的第一个(不完整/不正确)方法是编写一个分析仪,该分析器将特殊的句子标记令牌和句子的开头与句子的第一个单词相同,然后查询与以下类似的内容: SpanQuery termsInSentence = new SpanNearQuery( SpanQuery[] { new SpanTermQuery( new Term (MY_SPECIAL_SENTENCE_TOKEN)), new SpanTermQuery( new Term ("red")), new SpanTermQuery( new Term ("green")), new SpanTermQuery( new Term ("blue")), }, 999999999999, false ); SpanQuery nextSenten
10 2023-08-23
编程技术问答社区
递归反转一个字符串中的单词
我的朋友得到了一个任务,我无能为力.基本上,使用递归他需要以相反顺序打印句子的单词.例如: 输入 - 这是一个句子 输出 - 句子A是此 这是我为他写的一个示例,用于正常印刷品,我可以毫无问题地做整个句子,但是我既不能没有一个想法,即没有线性方法递归递归单词的起点并使用字符串库或链接列表或任何其他方式: #include using namespace std; void revSentence(char sentence[], int i) { if (sentence[i] == 0) return; cout
10 2023-08-11
编程技术问答社区