IBM SPSS Modeler 18发布

Ted Fischer
发表于 2016 年 3 月 15 日/ 更新于 2016 年 3 月 17 日

今天我们发布了 Modeler 18 版。这个版本有很多重要的变化和改进。我们有四组变化–Modeler 中的大数据算法、持续扩展和拥抱开源价值的变化、平台灵活性和其他变化。

Modeler 中的大数据算法

在过去的一年中，许多算法被添加到 Modeler 中，但受限于它们只能在 Analytic Server 上运行–Analytic Server 是从 Modeler 到 Hadoop 的连接器。在版本 18 中，所有这六种算法现在都可以在 Modeler 中使用任何类型的数据。算法包括

• 随机树 – 数据科学界的一种流行方法，涉及采用带有 bagging 的 C&R 树模型，然后只考虑对树的每个拆分进行变量替换的抽样

• Tree-AS，它基于 CHAID • GLE – 它包含多种回归方法

• 执行线性回归的线性 AS

• 线性支持向量机

• 两步 AS 聚类

所有这些算法的一个重要特征是它们是多线程的–即单个构建可以使用多个内核。这将缩短大型数据集的模型构建时间，并更好地利用数据资源。 GLE 和线性 SVM 支持正则化，通过惩罚具有极端参数值的模型来防止过度拟合。最后，Tree-AS 和线性 SVM 具有幕后数据准备，将自动处理常见数据问题

我们还在 Modeler 18 版中添加了 17.1 版中不存在的大数据算法–时间序列算法的新版本。与旧版本一样，它支持指数平滑、ARIMA 和专家建模器三种预测方法。在版本 18 中，时间序列将在 Analytic Server 中运行并支持多线程。此外，新算法支持拆分建模。在 Modeler 中，可以将变量定义为类型节点中的拆分变量–结果支持的算法将为每个拆分生成一个单独的模型。在版本 18 中，可以将时间序列添加到支持的算法列表中。

扩展和拥抱开源的价值

多年来，我们一直在扩展和拥抱开源的价值。正如您在这个社区中看到的那样，我们有许多开源扩展，允许非程序员运行开源程序来做任何事情，从建模到不同的图表到获取不同类型的数据。我们在版本 16 中开始使用 R 扩展进行扩展。在 17.1 版中，我们添加了带有 Spark 扩展的 Python，但要求它们在 Analytic Server 中运行。现在有了版本 18，带有 Spark 扩展的 Python 将在 Modeler 中本地运行。我们还在 Modeler 下载中包含了 Spark，以便任何 Python 代码都可以访问 Spark 机器学习库–请注意，必须单独安装 Python 2.x。我们在测试中使用的发行版是在 https://www.continuum.io/downloads 找到的 Anaconda。

通过此更改，所有 Modeler 用户现在都可以运行 Python 扩展。他们可以调用 Spark 机器学习库，其中包括 Modeler 中没有的许多算法，例如梯度提升树。如果安装了适当的 Python 库，数据科学家还可以调用常见的 Python 机器学习库，例如 num-py、scipy、scikit-learn 和 Pandas。