Intrinsic Algorithm 简介

clyde · 由 **clyde** » 周三 2月 13, 2019 4:19 pm

Intrinsic Algorithm SDK Manual
张云超
1. Intrinsic Algorithm 简介
Intrinsic算法是一种有监督学习算法，能够象人类小孩那样，用很少的样本就训练出高度准确性的分类算法模型,而且是给定任意数据集上性能最高的有监督学习算法。这个算法解决了以下机器学习理论和实践中的难题:
1. 对任意给定两类有监督学习训练数据集，是否存在能取得准确率最优性能的算法？最优的性能是多少？
2. 能否自动刻画两类之间任意复杂的非线性分界面，从而克服SVM等算法在分界面形状未知条件下无法选择核函数的难题？
3. 能否对特征有效性进行排序？从而在工程实践上为算法开发的前处理和特征提取部分提供改进依据？
4. 能否解决工程实践中由于维数诅咒引起的样本数不足的问题？
5. 通过长期深入研究，我们得出了以下结论：对任意给定两类有监督学习训练数据集，存在能取得最优性能的算法,Intrinsic算法就是这样一个算法的实现。一个训练集的最高性能取决于数据集本身。可以自动刻画两类之间任意复杂的非线性分界面，从而克服SVM等算法在分界面形状未知条件下无法选择核函数的难题。Intrinsic算法能够有效评估特征数据有效性，同时避免了维数诅咒问题，在工程上能够用很少的样本就训练出外推性能很好的结果。Intrinsic 算法在许多著名的机器学习公开数据集上取得了超越其它算法的性能，请参考：ExampleTrainingSet
Intrinsic 算法解决了哪些理论和工程上的问题：
1. 对任意给定的有监督训练集，理论上和工程上是否存在一个性能最优的通用算法？
答：理论上已经通过构造法和反证法证明存在这个算法，Intrinsic 算法就是其中一个工程实现例。
2. 怎么判定训练样本是否够了或者增加样本是否还能进一步提升分类准确性？
答：Intrinsic 算法原理上训练集和测试集上的性能只取决于数据本身，只要测试集上不再出现偏离训练集数据分布的情形，则增加训练样本不但无法显著提升分类准确性，而且在工程上增加采集数据成本和时间等方面的负担。工程上，Intrinsic 提供了方便的判定方法，详见后面SDK使用方法。
3. Intrinsic 算法能解决维数诅咒问题吗？
答：可以。维数诅咒问题是指估计多维随机变量的概率密度函数随着维数增加需要的样本量呈指数增长，导致工程上无法采集这么多样本。Intrinsic 算法不要求作
多维联合概率密度运算（你教你家娃从多个角度判断一个对象需要做多维联合概率密度估计吗？），并提出了特征互补性概念来完成多维指标判定结果融合问题，从而绕过维数诅咒问题。
4. Intrinsic 算法训练时间可预期和收敛性如何？
答：完全可预期，而且确定收敛。
5. Intrinsic 算法训练和识别运算量大吗？是否可以运行在计算能力一般的芯片上？
答：就象人类思考一样，运算量不大，可以运行在计算能力一般的低成本芯片上。
6. Intrinsic 算法训练结果可解释吗？
答：可以。不仅可以解释，而且可以分析出制约性能的原因，这些原因可能是实验原理和方法，数据采集设备的误差分布，数据标注信号的错误，甚至是分类方法不够科学，或是特征提取算法issue。
7. Intrinsic 算法是否能在产品发布后进行训练迭代或者是增量训练？
答：可以。
8. Intrinsic 算法需要利用各类的先验概率信息吗？
答：不需要。你教你家娃识别香蕉和苹果时，需要知道它们在世界上的数量比吗？
Intrinsic 算法相对其它机器学习算法的优缺点：
9. 相对人工神经网络和深度学习的优点有哪些？
答：训练样本少，准确率高，可解释，运算量少，不需要调参等。缺点是无法象深度学习那样跳过特征提取，需要配套的特征提取算法。
10. 相对支持向量机SVM 的优点？
答：能够适应任意线性和非线性复杂高维分类界面。
11. 相对C45 的决策树类算法优点？
答：不必生成多分枝多深度决策树，识别阶段需要的计算量更小更合理。
12. Intrinsic 算法有哪些应用领域和前景：
有监督学习的应用领域都可以用。在样本采集成本高的领域如医学，制药，生物信息处理领域更具压倒性优势。可解释性及性能分析功能更有助于科学研究探索领域。另外相对深度学习，运算量大大减少，可以采用低成本芯片。
Intrinsic 算法的优点：
准确性最高支持
可解释性支持
适应任意复杂高维分类界面支持
解决维数诅咒支持是
运算量小是
训练收敛时间确定是
训练时间少是
可以采用低成本芯片做产品是
工程上方便分析性能瓶颈和提升算法模型性能是
特征选择支持
高维数据支持
小样本支持
能够判定训练样本数是否足够是
内存消耗少
不需要先验概率是
支持某些维度上缺失内容的数据训练和预测是