数据科学家的福利:谷歌云正在推动模型共享


    当地时间11月9日,谷歌云宣布推出两款工具:Kubeflow Pipelines和AI Hub,旨在帮助数据科学家能在不同组织之间利用所创建的模型进行工作。
    谷歌云AI和ML(机器学习)产品总监Rajen Sheth表示,公司意识有很多数据科学家所创建的模型从来没有被使用过,如果ML真的像谷歌相信的那样是一场团队运动,那么模型应该是能够共享的,数据科学家、数据工程师和开发者都应该能够基于这些模型构建应用程序。
    为了帮助解决这个问题,谷歌宣布推出Kubeflow的扩展框架Kubeflow Pipelines,一个构建在Kubernetes之上并专为ML服务的开源框架。Pipelines(管道)本质上是容器化的组件,ML生态系统中的用户可以将这些组件连在一起来构建和管理ML工作流程。
    通过将模型内置到容器中,数据科学家可以简单地根据需要调整并用持续交付的方法重新启动底层模型,Sheth认为这为公司提供了更多模型使用的可能性。
    至于ML特征,Kubeflow Pipelines还为客户提供了一种新的方式,通过试验不同的管道变体,识别出哪一种能在可靠和可重复的环境中输出最佳效果。
    AI Hub,顾名思义,数据科学家可以在这个Hub(中心)找到各种不同的ML内容,包括Kubeflow pipelines、Jupyter notebooks、TensorFlow模块等。AI Hub将是一个公共存储库,涵盖谷歌云AI团队、谷歌研究院以及其他谷歌团队所开发的资源,允许数据科学家利用谷歌自家研发的专门知识。
    但是谷歌希望这个Hub不仅仅是一个公共资源库,还是一个允许组织内部私下共享信息的平台,因此赋予它双重的用途。数据科学家可以借此轻易使用中央储存库的必要组件,而模型的使用率也相应得到提升。
    该AI Hub即日起在Alpha平台上线,谷歌已经提供了一些初始组件和分享内部资源的工具,往后也将继续提供更多的资源和性能。