SPSS · 2022年3月31日

IBM SPSS Modeler 18发布


Ted Fischer
发表于 2016 年 3 月 15 日/ 更新于 2016 年 3 月 17 日

今天我们发布了 Modeler 18 版。这个版本有很多重要的变化和改进。我们有四组变化–Modeler 中的大数据算法、持续扩展和拥抱开源价值的变化、平台灵活性和其他变化。

Modeler 中的大数据算法

在过去的一年中,许多算法被添加到 Modeler 中,但受限于它们只能在 Analytic Server 上运行–Analytic Server 是从 Modeler 到 Hadoop 的连接器。在版本 18 中,所有这六种算法现在都可以在 Modeler 中使用任何类型的数据。算法包括

• 随机树 – 数据科学界的一种流行方法,涉及采用带有 bagging 的 C&R 树模型,然后只考虑对树的每个拆分进行变量替换的抽样


• Tree-AS,它基于 CHAID • GLE – 它包含多种回归方法

• 执行线性回归的线性 AS

• 线性支持向量机

• 两步 AS 聚类

所有这些算法的一个重要特征是它们是多线程的–即单个构建可以使用多个内核。这将缩短大型数据集的模型构建时间,并更好地利用数据资源。 GLE 和线性 SVM 支持正则化,通过惩罚具有极端参数值的模型来防止过度拟合。最后,Tree-AS 和线性 SVM 具有幕后数据准备,将自动处理常见数据问题

我们还在 Modeler 18 版中添加了 17.1 版中不存在的大数据算法–时间序列算法的新版本。与旧版本一样,它支持指数平滑、ARIMA 和专家建模器三种预测方法。在版本 18 中,时间序列将在 Analytic Server 中运行并支持多线程。此外,新算法支持拆分建模。在 Modeler 中,可以将变量定义为类型节点中的拆分变量–结果支持的算法将为每个拆分生成一个单独的模型。在版本 18 中,可以将时间序列添加到支持的算法列表中。

扩展和拥抱开源的价值

多年来,我们一直在扩展和拥抱开源的价值。正如您在这个社区中看到的那样,我们有许多开源扩展,允许非程序员运行开源程序来做任何事情,从建模到不同的图表到获取不同类型的数据。我们在版本 16 中开始使用 R 扩展进行扩展。在 17.1 版中,我们添加了带有 Spark 扩展的 Python,但要求它们在 Analytic Server 中运行。现在有了版本 18,带有 Spark 扩展的 Python 将在 Modeler 中本地运行。我们还在 Modeler 下载中包含了 Spark,以便任何 Python 代码都可以访问 Spark 机器学习库–请注意,必须单独安装 Python 2.x。我们在测试中使用的发行版是在 https://www.continuum.io/downloads 找到的 Anaconda。

通过此更改,所有 Modeler 用户现在都可以运行 Python 扩展。他们可以调用 Spark 机器学习库,其中包括 Modeler 中没有的许多算法,例如梯度提升树。如果安装了适当的 Python 库,数据科学家还可以调用常见的 Python 机器学习库,例如 num-py、scipy、scikit-learn 和 Pandas。

我们现在还使从社区获得扩展变得更加容易。使用新的 Extensions 菜单项,Modeler 用户现在可以调用 Extension hub。有了这个集线器,用户可以识别、下载和安装扩展,而无需去 Github 并手动传输文件。

平台灵活性

我们在帮助菜单中添加了几个链接到这个社区–特别是论坛和社区帮助页面。

Modeler Personal 和 Professional 将在 Mac OS 版本 18 上可用。此外,Modeler 18 的所有版本都支持 Windows 10。

其他变化

Modeler 18 扩展了其数据库内挖掘功能,将 DB2 包含在 Z/os 或 IDAA(IBM SB2 分析加速器)中。使用 GUI,Modeler 客户现在可以使用决策树、回归树、K-Means、本机贝叶斯和两步算法来构建和部署模型。

Modeler Premium 现在包括额外的实体分析功能–包括使用外部 DB2 存储库、超过 4 个核心和公开关系的能力。请注意,不再建议使用超过 1000 万条记录。