使用ML.NET的动态训练/测试类
这是这里问题的后续 我的系统无法在编译时使用预定义的类 // field data type public class Field { public string FieldName { get; set; } public Type FieldType { get; set; } } // dynamic class helper public class DynamicClass : DynamicObject { private readonly Dictionary> _fields; public DynamicClass(List fields) { _fields = new Dictionary
0 2024-04-16
编程技术问答社区
如何在 accord.net 中保存«学习状态»?
我是Machine Learning and Accord.net的初学者.我看到了如何训练它然后使用它,但是在企业设置中,在服务器上运行它,如何持续了解Accord .NET的学习.我需要保存所有培训数据并每次重新启动应用程序时进行重新培训吗? 解决方案 在用法时,有负载和保存方法以持续和重新创建状态. 您正在查看哪种特定模型? 其他解决方案 通过添加 将Accord.io命名空间导入Accord.io名称空间 using Accord.IO; 在源文件的顶部.这样,您将能够使用 serialialialia框架对象.要从其序列化表单中加载对象,您可以使用serializer.load(字符串路径).
0 2024-04-16
编程技术问答社区
用于C#的支持向量机库
是否已经实现了我可以在C#项目中使用的支持向量机库? 解决方案 我进行了一些Google搜索并找到了可能很有趣的链接: svm libsvm cound.net 其他解决方案 我在尝试找到C#中支持向量机实现的好起点示例时偶然发现了您的问题.如果有人想编写自己的SVM,并且不想使用工具包或无法使用工具包,这是我自己的良好参考. kernel-support-support--vecter-vector-vecter-vecter-vecter-vecter-machines-xampample----示例 - 示例 - 示例C#
0 2024-04-15
编程技术问答社区
SVM能不能渐进地学习?
我正在使用多维SVM分类器(svm.net,libsvm的包装器)来对一组功能进行分类. 给定SVM模型,是否可以在不必重新计算所有以前的数据的情况下合并新的培训数据?我猜另一种提出它的方式是:SVM可变? 解决方案 实际上,通常称为增量学习.这个问题以前已经出现,在这里得到了很好的回答:支持矢量机(SVM)的一些实现详细信息. 简而 我找到了两种可能的解决方案,其他解决方案 在线和增量虽然相似,但略有不同.在在线中,通常可以配置它的单个通行证(时期= 1)或时代的数量.在哪里,增量意味着您已经有了模型;不管它是如何构建的,但是模型都可以通过新示例来变形.同样,通常需要在线和增量. 这是在线和/或增量SVM上有一些评论的工具列表: https://stats.stackexchange.com/questions/questions/30834/is-it-possible-to-possible-to-append-training-training-trai
0 2024-04-14
编程技术问答社区
C#中的非线性回归
我正在寻找一种基于2D数据集的非线性(最好是二次)曲线的方法.现在,我正在使用自己的普通最小二乘(OLS)实现来产生线性趋势,但是我的趋势更适合曲线模型.我要分析的数据是随着时间的推移的系统负载. 这是我用来产生线性系数的方程式: 我已经看过Math.net Numerics和其他一些Libs,但是它们要么提供 interpolation 而不是 Remession (这对我没有用),否则代码只是某种程度上不起作用. 任何人都知道有任何免费的开源库或代码样本可以产生这种曲线的系数? 解决方案 我使用 Mathnet.虹膜释放,因为它与.NET 3.5和VS2008兼容.该方法基于using MathNet.Numerics.LinearAlgebra; public class PolynomialRegression { Vector x_data, y_data, coef; int order; public PolynomialRegression(Ve
0 2024-04-13
编程技术问答社区
捕获所有Windows信息
我想利用机器学习来建模用户的意图,并可能自动执行的任务.为此,我想访问有关用户操作和机器状态的大量信息.为此,我目前认为可以访问Windows消息流可能是前进的道路. 我想拥有尽可能多的信息,将信息过滤到我想离开机器学习工具的信息中. 这将如何实现? (最好在C#中). 请假设我知道如何管理和使用大量数据涌入. 任何帮助都将不胜感激. 解决方案 您可以使用 WH_CALLWNDPROC(4)安装挂钩程序来监视消息 在系统将它们发送到目标窗口过程之前.为了 更多信息,请参阅callwndproc钩程序. WH_CALLWNDPROCRET(12)安装一个挂钩程序来监视 消息被目标窗口处理后的消息 程序.有关更多信息,请参阅CallwndretProc Hook 过程. 自我实施以来已经有一段时间了,但是作为一个例子,我发布了用于连接特定消息的基类. (例如,我已经在全局鼠标捕获器中使用了它,以确保我的Winforms应用程序的行为与Inte
2 2024-04-12
编程技术问答社区
用于聚类的C/C++机器学习库
哪些C/C ++机器学习库支持多维数据的聚类? (例如k均值) 到目前为止,我已经遇到了 sgi mlc ++ http://www.sgi.com/tech/tech/tech/mlc/mlc//li> opencv mll 我很想滚动我自己,但是我敢肯定,预先存在的效果会更好地优化性能,而更多地注视着代码. 解决方案 wikipedia-clustering项目似乎很不错,有点轻. 其他解决方案 我不确定您是否正在寻找C4.5,ID3等等算法.如果您这样做,您可以从大学网站上下载他们的各个来源. e.
0 2024-04-08
编程技术问答社区
在Python中加速矩阵-向量乘法和指数化,可能通过调用C/C++来实现
我目前正在从事一个机器学习项目,其中 - 给定数据矩阵Z和vector rho - 我必须计算上一篇文章). 我目前使用numpy在python中进行此操作,如下所示(作为参考,此代码以0.2s为单位).尽管这很好,但我想加快它的速度,因为我在代码中多次调用该函数(它代表了我项目中涉及的计算的90%以上). 我正在寻找任何方法来改善此代码而无需并行化(即只有1个CPU).我很高兴使用Python中的任何公开软件包或致电C ++(因为我听说这可以通过数量级来改善运行时间.预处理数据矩阵Z也可以.可以利用一些可以利用更好计算的事情是向量rho通常稀疏(大约50%的条目= 0),并且通常 far 行比列更多(在大多数情况下,在大多数情况下n_cols
0 2024-04-07
编程技术问答社区
如何在非常大的数据集上训练Word2vec?
我正在考虑在Web爬网垃圾场的大型大规模数据上训练Word2Vec. 我亲自培训了i iMac上的C googlenews-2012垃圾场(1.5GB)花了大约3个小时的时间来训练和生成向量(速度给人留下了深刻的印象).不过,我没有尝试过Python实现:(我在某个地方阅读了在300个向量长度的Wiki Dump(11GB)上生成向量的地方,大约需要9天才能生成. 如何加快word2vec?我需要在2-3天内使用分布式模型还是需要进行哪种类型的硬件?我的iMac带有8GB RAM. 哪一个更快? Gensim Python或C实施? 我看到Word2Vec实施不支持GPU培训. 解决方案 有很多机会按大规模创建Word2Vec模型.正如您指出的那样,候选解决方案是分发(和/或多线程)或GPU.这不是一个详尽的清单,但希望您能得到一些有关如何进行的想法. 分布式/多线程选项: Gensim 使用Cython重要的地方 比C实施慢得多. Gensi
0 2024-04-07
编程技术问答社区
感知器学习算法没有收敛到0
这是我在ANSI C: 中实现的敏感性实现 #include #include #include float randomFloat() { srand(time(NULL)); float r = (float)rand() / (float)RAND_MAX; return r; } int calculateOutput(float weights[], float x, float y) { float sum = x * weights[0] + y * weights[1]; return (sum >= 0) ? 1 : -1; } int main(int argc, char *argv[]) { // X, Y coordinates of the training set. float x[208], y[208]; // Trai
2 2024-04-06
编程技术问答社区
如何理解位置敏感哈希?
我注意到LSH似乎是找到具有高维度属性的类似物品的好方法. 阅读论文后 http://www.slaney.org/malcolm/yahoo/slaney2008-lshtutorial.pdf ,我仍然对那些公式感到困惑. 有人知道一个博客或文章,这说明了简单的方法吗? 解决方案 我为LSH看到的最好的教程是:大规模数据集的采矿. 检查第3章 - 查找类似的项目 一个> 我也建议下面的幻灯片: /vandurmelallacl10-slide.pdf . 幻灯片中的示例有助于我理解余弦相似性的哈希. 我从 Benjamin van durme&Ashwin lall,Acl2010 尝试解释LSH家族的余弦距离的直觉. 在图中,有两个带有红色和黄色彩色的圆圈,代表两个二维数据点.我们正在尝试找到他们的 cesine相似性使用lsh. 灰色线是一些均匀随机挑选的平面. 取决于数据点位于灰色线上还是以下是灰线,我们将此关系标记为0/1. 在左上
0 2024-04-05
编程技术问答社区
如何实现体面的 "坏词过滤"?
如何创建好坏单词聊天过滤器?例如,让用户不要键入便便并向他们发送警告. 但是,它还应该过滤poopppp,p00p,po0p,p0o0o0op(或他们尝试使用的任何技巧)等. 解决方案 您应该实现一些机器学习来过滤它.我建议这样做: google tensorflow . 您应该做的是创建TensorFlow引擎,用不好的词来训练它们:POOP,P0OP,PO0PP等...经过几次训练,引擎将能够说出PO0000P被认为是坏词. 当机器学习可能需要陡峭的学习曲线时,您可以在 https:https:https:https://developers.google.com/machine-learning/crash-course/.
0 2024-04-05
编程技术问答社区
是否可以在Windows上使用TensorFlow C++ API?
我有兴趣将TensorFlow纳入Windows 10上的Visual Studio内置的C ++服务器应用程序,我需要知道是否可能. Google最近宣布了Windows支持TensorFlow的支持: 但是我可以告诉这只是一个更常用的python软件包的PIP安装,并且要使用C ++ API,您需要自己从源构建仓库:如何构建和使用Google Tensorflow C ++ API 我尝试使用Bazel自己构建该项目,但遇到了试图配置构建的问题. 是否有一种方法可以使TensorFlow C ++在本机Windows中工作(我看过其他人帖子,不使用Docker或New Windows 10 Linux子系统)? )? 谢谢, ian 解决方案 当然可能在Windows上使用Tensorflow的C ++ API,但目前不是很容易 Easy . Right now, the easiest way to build against the C++ API o
2 2024-04-04
编程技术问答社区
AttributeError: 模块'_Box2D'没有属性'RAND_LIMIT_swigconstant'。
我试图在加强方面运行Lunar_lander 学习,但是当我运行它时,会出现错误. 再加上我的计算机是OSX系统. 这是Lunar Lander的代码: import numpy as np import gym import csv from keras.models import Sequential from keras.layers import Dense, Activation, Flatten from keras.optimizers import Adam from rl.agents.dqn import DQNAgent from rl.policy import BoltzmannQPolicy, EpsGreedyQPolicy from rl.memory import SequentialMemory import io import sys import csv # Path environment changed to make th
16 2024-04-03
编程技术问答社区
通过使用分类器对实例的置信度来提高预测分数
我正在使用三个分类器(RandomForestClassifier,KNearestNeighborClassifier和SVM Classifier),您可以在下面看到: >> svm_clf_sl_GS SVC(C=5, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape='ovo', degree=3, gamma='auto', kernel='rbf', max_iter=-1, probability=True, random_state=41, shrinking=True, tol=0.001, verbose=False) >> knn_clf_sl_GS KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski', metric_params=None, n
0 2024-04-01
编程技术问答社区
产生汉明距离t内的所有比特序列
给定位的向量v,计算具有锤距1的位的集合,v,v,然后 ,最多为输入参数t. so 011 I should get ~~~ 111 001 010 ~~~ -> 3 choose 1 in number 101 000 110 ~~~ -> 3 choose 2 100 ~~~ -> 3 choose 3 如何有效地计算这个?向量不会始终是维度3,例如可能是6.这将在我的真实代码中运行很多时间,因此也欢迎一些效率(即使支付更多的内存). 我的尝试: #include #include void print(const std::vector& v, const int idx, const char new_bit) { for(size_t i = 0; i
2 2024-03-31
编程技术问答社区
当使用多个分类器时--如何衡量集合的性能?[SciKit Learn]
我有一个分类问题(预测序列是否属于类),我决定使用多个分类方法,以帮助滤除误报. (问题是在生物信息学中 - 将蛋白序列分类为神经肽前体序列.和用于生成功能和训练单个预测变量的代码). 现在,分类器具有大致相似的性能指标(在10倍CV的训练集上,精度/精度/精度为83-94%),因此我的"天真"方法就是简单地使用多个分类器(随机森林,,,,随机森林,, Extratrees,SVM(线性内核),SVM(RBF内核)和GRB),并使用简单的多数票. 我的问题是: 如何获得不同分类器和/或他们的投票预测的性能指标? 也就是说,我想看看使用多个分类器是否完全改善了我的性能,或者它们的组合确实可以提高. 我的直觉可能是使用ROC分数,但我不知道如何"结合"结果并从分类器组合中获得. (也就是说,要查看ROC曲线仅适用于每个分类器[已经知道],然后使用分类器组合查看ROC曲线或AUC). (我当前使用随机森林和外部方法的"预测概率"过滤预测,然后我任意过滤结果,预测分
0 2024-03-31
编程技术问答社区
为什么构建决策树的运行时间是mnlog(n)?
当m是特征量,n是样品的量时,python scikit-learn sett( http://scikit-learn.org/stable/modules/tree.html )指出,构建二进制决策树的运行时是mnlog(n). 我知道日志(n)来自分裂后树的平均高度.我了解到,在每次拆分时,您必须查看每个功能(M),然后选择最适合拆分的功能.我知道这是通过计算该节点(n)下每个样本的"最佳度量"(在我的情况下是Gini杂质)来完成的.但是,要找到最好的分式,这是否意味着您必须查看每种可能的方法来分配每个功能的样本吗?这不是像2^n-1 * m,而不仅仅是MN吗?我在想这个错误吗?任何建议都会有所帮助.谢谢. 解决方案 在每个点,建立决策树的一种方法是这样做的: 对于每个可能的功能要分开的功能: 找到该功能的最佳拆分. 确定这种合适的"好处". 在上面尝试过的所有选项中,尽力而为. 问题是如何执行每个步骤.如果您有连续的数据,那么找到最佳拆分的通用
0 2024-03-30
编程技术问答社区
如何安装和启动mahout for spark?
我有兴趣学习机器学习算法的大数据,为此,我想学习如何在Mahout中为Spark编码.现在,我已经在这里发布了我的原始问题.正在修改我的问题. 如果有人知道如何安装最新 ubuntu 14.04以及如何整合 mahout ,我将非常感激. 预先感谢. 解决方案 当前Mahout使用: 您可以尝试您在其他版本中报告的例外是Scala版本不匹配的结果.
0 2024-03-30
编程技术问答社区