Apache Spark机器学习.1.3 机器学习算法

    xiaoxiao2024-01-07  161

    1.3 机器学习算法

    本节将回顾机器学习所需的算法,介绍机器学习库,包括Spark的MLlib和IBM的SystemML,然后讨论它们与Spark的集成。

    阅读本节之后,读者将会熟悉包括Spark MLlib在内的各种机器学习库,知道如何利用它们进行机器学习。

    为完成机器学习项目,数据科学家经常使用机器学习工具(如R语言或MATLAB)上的一些成熟分类或回归算法开发和评估预测模型。要完成一个机器学习项目,除了数据集和计算平台,这些机器学习算法库也是十分必要的。

    例如,R语言提供了专业人员使用的各类算法,所以得到了广泛流行和深入使用。R语言有1000多个程序包,数据科学家可能不需要全部的程序包,但需要几个关键的程序包:

    数据加载:使用RODBC或RMySQL

    数据操作:使用stringr或lubridate

    数据可视化:使用ggplot2或leaflet

    数据建模:使用Random Forest或survival

    报告结果:使用shiny或markdown

    根据近期ComputerWorld的调查,下载最多的R语言程序包如下:

    程序包名称 下载次数

    程序包名称 下载次数

    Rcpp 162778

    ggplot2 146008

    plyr 123889

    stringr 120387

    colorspace 118798

    digest 113899

    reshape2 109869

    RColorBrewer 100623

    scales 92448

    manipulate 88664

     

    更多的信息,请访问:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。

    最新回复(0)