C# ENCOG SVM分类与我自己的数据集
我想在C#中执行多类分类应用程序.我决定使用Endog做到这一点.现在我被困在某一时刻.我找到了一个XOR示例,我理解.但是,当我要使用自己的数据集时,应用程序仅在一个示例中使用一个功能来计算. 这是我的代码: namespace ConsoleApplication1 { public static class Load { public static double[][] FromFile(string path) { var rows = new List(); foreach (var line in File.ReadAllLines(path)) { rows.Add(line.Split(new[] { ' ' }, StringSplitOptions.RemoveEmptyEntries).Select(double.Parse
4 2024-04-25
编程技术问答社区
解析HTML。成人分类系统
我正在研究网络上使用的不同和(有时是过时的)评级/分类标准. I.E. pics ,粉末, icra 最受欢迎的标准(使用它的站点数量)? 是否有一个C#库可以处理其中的任何(或全部)? 解决方案 您不应该再使用 pics .源自 粉末已将图片取代作为描述网站和构建对此类描述作用的应用程序的推荐方法.图片和粉末的比较是 在链接的文档中,您可以阅读: 这意味着W3C不建议您进一步开发使用图片的软件,该软件被粉末覆盖的用例,如下所示. . icra 截至2010年10月,Fosi停止了ICRA标签引擎.此外,Fosi撤回了对ICRA评级系统的所有支持,并取消了所有文档,用于标记具有ICRA评级的网站.原因是ICRA标签未能获得广泛的接受. 因此,我们应该使用但是,粉末只是框架,因此您仍然需要进行分类(分别是RDF词汇)来进行内容额定值,您可以将其与粉末一起使用.粉末底漆包括请参阅相关问题:是否有ICRA的网站自我调节内容标签的选择?
2 2024-04-23
编程技术问答社区
为一个Twitter情感分析项目寻找开源的C#天真贝叶斯分类器
我在这里找到了一个类似的项目: python中Twitter的情感分析.但是,我正在研究C#,需要使用具有相同语言的开源的天真贝叶斯分类器.除非有人可以阐明我如何利用Python贝叶斯分类器来实现相同的目标.有什么想法吗? 解决方案 我成功地从其他解决方案 如果您不严格需要天真的贝叶斯,我建议您使用libshogun.它具有大量的高质量分类器,显然已经成功地在Cygwin上为Win32建造.构建之后,您可以从c#中调用DLL.我认为您会发现很难找到C#中的分类器库,这是由于经常性能较重的性质,因此最好的选择是致电这样的本地库. 其他解决方案 这可能是值得看的东西: https://github.com/joelmartinez/nbayes https://github.com/joelmartinez/nbayes/nbayes/wiki
4 2024-04-18
编程技术问答社区
如何用c#实现决策树(visual studio 2008)-帮助
我有一个决策树,我需要在c# 中转到代码 这样做的简单方法是使用IF-ELSE语句,但是在此解决方案中,我需要创建4-5个嵌套条件. 我正在寻找一种更好的方法,到目前为止,我对规则引擎有所了解. 您还有其他建议,以一种有效的方法来开发具有4-5个嵌套条件的决策树? 解决方案 我在书中实现了一个简单的决策树作为示例.该代码可用在此处在线,所以也许您可以将其用作灵感.一个决定本质上表示为具有参考true分支和false分支的类,并包含一个可以进行测试的函数: class DecisionQuery : Decision { public Decision Positive { get; set; } public Decision Negative { get; set; } // Primitive operation to be provided by the user public Func Test { get
4 2024-04-18
编程技术问答社区
xgboost: 在线性助推器gblinear中使用哪些参数?
在网上看,我仍然对线性助推器gblinear精确的内容感到困惑,而我不是之后如果我正确理解了这一点,则线性助推器会(而不是正则化)(而不是正则化). 在这种情况下,我只能理解上面的3个参数和eta(提升速率). 这也是在尽管如此,我看到该树参数gamma,max_depth和min_child_weight也对算法产生了影响. 这怎么可能?网络上任何地方的线性助推器是否有完全清晰的描述? 请参阅我的示例: library(xgboost) data(agaricus.train, package='xgboost') data(agaricus.test, package='xgboost') train
12 2024-04-02
编程技术问答社区
如何在Python中判断一个流是文本还是二进制?
是否有一种方法来确定(测试,检查或分类)是文件(或bytestream还是其他类似文件的对象)是文本或二进制文件,与file命令的魔术相似,在实际的多数情况下? 动机:尽管应该避免进行猜测,其中Python 可以确定这一点,我想利用能力.一个人可以涵盖有用的案例并处理例外. 偏好将偏置跨平台或纯净的方法.一种方法是 python-magic 但是,这取决于窗户上的cygwin,以及 libmagic 一般. 解决方案 来自file男人页面: 打印的类型通常包含文字中的一个单词(文件) 仅包含打印字符和一些 常见的控制字符,可能可以安全地在ASCII终端上阅读),可执行(该文件包含 以某些Unix内核或其他形式可以理解的形式编译程序的结果)或数据含义任何内容 否则(数据通常为``二进制''或不可打印). 看到您只想确定它是文本还是二进制,我只需检查流中的每个字符 import string all(c in string.printable for c
2 2024-03-30
编程技术问答社区
在R中对一个非常大的数据集(180万行x270列)进行建模
我正在使用8 GB 的A RAM上的A Windows 8 .我有一个数据. (logit/任何其他分类) 我尝试使用FF和BigGLM软件包来处理数据. 但是我仍然面临错误" Error: cannot allocate vector of size 81.5 Gb"的问题. 因此,我将行数减少到10,并在FFDF类的对象上尝试了BigGLM的步骤.但是,错误仍然持续. 任何人都可以建议我解决这个问题的解决方案吗? 构建分类模型? **EDITS**: 我是 在我运行代码时使用任何其他程序. 在我运行代码之前,系统上的RAM是60%免费的,这是因为R程序.当我终止R时,RAM 80%免费. 我正在添加 我现在正在与之合作的一些列,如评论者的繁殖所建议. open_flg是DV ,而其他是IDV str(x[1:10,]) 'data.frame': 10 obs. of 270 variables: $ OPEN_FLG
8 2024-03-30
编程技术问答社区
BERT在微调后得到句子级别的嵌入
我遇到了这个 1)我想在进行微调后获取句子级别的嵌入(由[CLS]给予的嵌入).我该怎么办? 2)我还注意到该页面上的代码需要大量时间来返回测试数据的结果.这是为什么?当我训练模型时,与尝试获得测试预测的时间相比,花费的时间更少. 从该页面上的代码中,我没有使用以下代码 的块 test_InputExamples = test.apply(lambda x: bert.run_classifier.InputExample(guid=None, text_a = x[DATA_COLUMN], text_b = None,
8 2024-03-30
编程技术问答社区
Nltk天真贝叶斯分类器的内存问题
我的第一篇文章! 我使用NLTK NaiveBayesClassifier遇到问题.我有7000件物品的培训集.每个培训项目都有2或3个世界和一个代码的描述.我想将代码用作班级的标签和描述的每个世界作为特征. 一个例子: "我叫奥巴马",001 ... 训练集= {[feature ['my'] = true,feature ['name'] = true,功能['is'] = true,feature [obama] = true],001} 不幸的是,使用这种方法,训练程序naivebayesclassifier.训练用最多3 GB的RAM. 我的方法怎么了? 谢谢! def document_features(document): # feature extractor document = set(document) return dict((w, True) for w in document) ... words=set() entries = []
10 2024-03-29
编程技术问答社区
MATLAB-分类输出
我的程序使用来自用户的一定簇的K-均值聚类.对于此k = 4,但我想通过matlabs幼稚的贝叶斯分类器运行群集信息. 有没有办法将簇拆分并将其喂入MATLAB中的不同的天真分类器? 中 天真的贝叶斯: class = classify(test,training, target_class, 'diaglinear'); k-means: %% generate sample data K = 4; numObservarations = 5000; dimensions = 42; %% cluster opts = statset('MaxIter', 500, 'Display', 'iter'); [clustIDX, clusters, interClustSum, Dist] = kmeans(data, K, 'options',opts, ... 'distance','sqEuclidean', 'EmptyAction','sin
6 2024-03-29
编程技术问答社区
具有top-k输出的大规模naïve Bayes分类器
我需要一个大规模幼稚贝叶斯的库,其中有数百万个培训示例和 +100k二进制功能.它必须是在线版本(培训后可更新).我还需要TOP-K输出,即单个实例的多个分类.准确性不是很重要. 目的是自动文本分类应用程序. 对良好库的任何建议都非常感谢. 编辑:库最好在Java中. 解决方案 如果也可以接受以外的学习算法,请访问 vowpal wabbit (C ++),其声誉是成为最好的可扩展文本分类算法之一(在线随机梯度下降+LDA).我不确定它是否确实会产生TOP-K输出.
2 2024-03-29
编程技术问答社区
使用Naive Bayes分类器对推文进行分类:一些问题
在Stackoverflow上使用的各种帖子中,我正在尝试实现自己的PHP Classier,以将推文分类为正面,中性和负面类别.在编码之前,我需要进行流程.我的思考列车和一个例子如下: p(class) * p(words|class) Bayes theorem: p(class|words) = ------------------------- with p(words) assumption that p(words) is the same for every class leads to calculating arg max p(class) * p(words|class) with p(words|class) = p(word1|class) * p(word2|topic) * ... and
4 2024-03-29
编程技术问答社区
Naive Bayes:TRAINING的每个特征的类内方差必须是正数。
试图适合天真的贝叶斯时: training_data = sample; % target_class = K8; # train model nb = NaiveBayes.fit(training_data, target_class); # prediction y = nb.predict(cluster3); 我有一个错误: ??? Error using ==> NaiveBayes.fit>gaussianFit at 535 The within-class variance in each feature of TRAINING must be positive. The within-class variance in feature 2 5 6 in class normal. are not positive. Error in ==> NaiveBayes.fit at 498 obj = g
4 2024-03-29
编程技术问答社区
聚类和贝叶斯分类器 Matlab
所以我正处于下一步要做什么的跨道路上,我着手在复杂的数据集中学习和应用一些机器学习算法,现在我已经这样做了.从一开始,我的计划是将两个可能的分类器结合起来,以尝试制造多分类系统. ,但这是我被困的地方.我选择一种聚类算法(模糊C的含义)(在学习了一些样本K-均值的东西之后)和幼稚的贝叶斯作为MCS的两个候选者(多分类器系统). 我可以独立地使用数据进行分类,但是我正在努力以有意义的方式将两者结合在一起. 例如,模糊的聚类几乎捕获了几乎所有"蓝精灵"攻击,除了通常一个,我不确定为什么它不抓住这个奇怪的球,但我所知道的只是它没有.其中一个集群将由蓝精灵攻击主导,通常我会在另一个簇中发现一个蓝精灵.这是我遇到问题情况的地方,如果我在所有不同的攻击类型(蓝精灵,正常,海王星等)上训练贝叶斯分类器,并将其应用于其余的簇以尝试找到最后一个剩下的蓝精灵将具有高的错误警报率. 我不确定该如何进行,我不想从训练组中取出其他攻击,但我只想训练贝叶斯分类器来发现"蓝精灵"攻击.目前,它
6 2024-03-29
编程技术问答社区
什么是最好的开源Java贝叶斯过滤器库?
在Stackoverflow的其他答案中,有人建议WEKA很好,但是还有其他答案( classifier4j , a href =" http://jbnc.sourceforge.net/" rel =" noreferrer"> jbnc ,有人对这些有实际经验吗? 解决方案 weka很棒,但是其他解决方案 您还可以看一下仍然非常新的其他解决方案 另一个新图书馆是免责声明:我已经向该项目提交了补丁,目前是一个参数
6 2024-03-29
编程技术问答社区
文本分类为类别
我正在处理文本分类问题,我正在尝试将单词集合分类为类别,是的,有很多可用于分类的库,因此,如果您建议使用它们,请不要回答. 让我解释我要实施的内容. (例如) 单词列表: java 编程 语言 c-sharp 类别列表. java c-sharp 在这里我们将训练该集合,as Java地图为类别1.Java 编程图1.Java 编程图2.c-sharp 语言图1.Java 语言图到类别2.c-sharp c-sharp映射到类别2.c-sharp 现在,我们有一个短语" 最好的Java编程书" 从给定的短语中,以下单词与我们的"单词列表"匹配.: java 编程 "编程"有两个映射类别" java"和" c-sharp",所以这是一个常见的词. " java"仅映射到类别" java". 所以我们的匹配类别是" java" 这是我想到的,这个解决方案可以很好,可以实施,您的建议是什么,我错过
8 2024-03-29
编程技术问答社区
多层感知器-反推法
我有一个学校项目,可以对多层感知器进行编程,该项目将数据分为三个类.我已经通过对于分类,我使用的是一个旋转代码,并且我的输入由具有2个值和3个输出神经元的向量组成(每个类别类别).每个时期后,我都会拨出输入数据.对于分类,我正在使用Sigmoid函数.我也试图实现SoftMax,但是我还没有找到看起来衍生的SoftMax.权重调整是否需要衍生软效应?要检查网络是否成功分类输入,我正在比较输出神经元的位置是否具有输出神经元输出最大输出的位置对应于当前输入一式式代码向量的位置,该位置等于1. . 但是我的实现不会训练这个神经网络.我正在研究此事,并进行了几天的调试,并在互联网上寻找我做错了什么,但我没有找到答案.我真的不知道我在哪里犯错.当我有10个输入时,我的神经网络将成功训练,但是当我有100、200、400和800个输入时,当它具有一半良好的分类输入时,它会开始循环.正如我所说,我的反向传播算法很好. Visual Studio 2010中带有输入文件的整个C ++项目在这里: h
8 2024-03-27
编程技术问答社区
多层神经网络不会预测负值
我已经实现了多层感知器来预测输入向量的罪过.向量由随机选择的四个-1,0,1组成,并设置为1.网络应预测向量内容的总和. eg输入= output = sin(0+1+(-1)+0+1) 我遇到的问题是,网络永远不会预测负值,许多向量的罪值为负.它可以完美地预测所有正或零输出.我认为更新权重的问题是一个问题,在每个时期之后都会更新.有没有人以前遇到过NN的问题?任何帮助都很棒! 注意:该网络在1个隐藏层中有5个输入,6个被限制的单元. 解决方案 自从我研究多层感知以来已经很长时间了. 我会将您的问题域重新为[0,1]域而不是[-1,1].如果您查看Logistic函数图: 它在[0,1]之间生成值.我不期望它会产生负面结果.我可能错了,坚韧. 编辑: 您实际上可以将逻辑函数扩展到问题域.使用概括性逻辑曲线将A和K参数设置为域的边界. 另一个选项是双曲线切线,它从[-1,+1]从没有常数设置. 其他解决方案 有许多不同种类的激活功能,其中
0 2024-03-27
编程技术问答社区
根据相似性的基本原理对图像进行分类
我有30,40张人类的照片,我想在Python代码中获得.并制作一组类似的照片.就像约翰的5张照片和彼得10张照片.像这样 .我是图像处理的新手.所以我的问题是哪种算法最适合此.我想在AWS lambda功能上执行此操作.任何帮助都将不胜感激. P.S(这是我在这个领域的第一个任务.请忽略告诉我改善它们的错误,谢谢) 解决方案 我建议您用AWS重新认知做事.这很简单. 您可以通过3个简单的步骤来实现想要的目标: 1.用元数据上传图像:表示您将其名称的人上传到 s3 以存储其信息以后 2.照片的索引 :这意味着在面部添加信息标签,此信息存储在DynamoDB中,并且使用 index_faces api来完成此信息 3.与索引面的照片比较:将通过rekognition search_faces_by_image api 来实现这一点. 现在第1部分代码:用元数据上传 import boto3 s3 = boto3.resource('s3') #
2 2024-03-22
编程技术问答社区
使用Pytorch Lightning的forward()对单张和多张图像的二元分类结果不一致
我已经训练了一个差异自动编码器(VAE),并在编码器进行二进制图像分类之后具有额外的完全连接层.它是使用Pytorch Lightning设置的.编码器/解码器是resnet18来自Pytorch Lightning Bolts Repo. from pl_bolts.models.autoencoders.components import ( resnet18_encoder, resnet18_decoder ) class VariationalAutoencoder(LightningModule): ... self.first_conv: bool = False self.maxpool1: bool = False self.enc_out_dim: int = 512 self.encoder = resnet18_encoder(first_conv, maxpool1) self.fc_objec