MaxCompute上你从未体验过的数据分析和机器学习过程

    xiaoxiao2026-05-16  10

    在MaxCompute上,大家有很多种分析和机器学习的方式。大家可以用在数加的web界面编写SQL,提交SQL作业;可以用console直接执行SQL,等等等。那机器学习呢,大家需要通过PAI命令提交PAI任务,或者在xlab上操作xlib;画图呢?导出数据绘图或者使用xlab。而这一切工具,都是割裂的,你不得不在各个地方进行切换,而且,也没有传统的数据分析和机器学习的快感。

    那传统的任务是怎么做的呢,使用RStudio或者jupyter notebook(前身是ipython notebook),R我不熟,但对于Pythoner,用pandas进行数据分析、绘图,再用scikit-learn执行机器学习算法,在一个notebook里,能做所有想做的事情,非常高效。

    现在呢,整合这一切的就是PyODPS,我们包含有基础MaxCompute SDK,因此一切对MaxCompute模型的操作你都可以。除此之外,我们还包括了DataFrame框架,和机器学习模块,这一切操作都进行了整合。

    话不多说,直接上截图。

    DataFrame执行的过程。

    这个是我们的任务执行的详细过程,我们的任务执行包含一定的显示信息,亦能轻松跳转到logview来查看明细。执行完成也有通知。

    下面是我们完整的使用SQL、DataFrame和ML机器学习的过程。

    而这一切,你自己也可以在本地完成。你只需要:

    pip install pyodps[full]

    然后随意到一个目录下,启动jupyter notebook

    jupyter notebook

    就可以体验和使用PyODPS哦。

    我们的文档在:http://pyodps.readthedocs.io欢迎吐槽。

    相关资源:python入门教程(PDF版)
    最新回复(0)