1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

5分钟搞定机器学习建模,智铀科技-小智平台免费试用

 2019-10-14 16:20  来源:互联网  我来投稿 撤稿纠错

  阿里云优惠券 先领券再下单

AutoML的概念源自2012年学术界提出一个新观点Programming by Optimization(PbO),字面上的意思是指以最优化程序开发,实质上就是要解决建模时依赖人工的问题。

AutoML更大范围内为世人周知是因为谷歌Cloud AutoML Vision产品的发布,这款产品可以用AI设计AI,让更多对机器学习了解有限的人,把Google级的AI技术运用到产品打磨中,从而降低了使用机器学习的门槛,这也是智铀科技正在做的事情,不同的是,谷歌AutoML目前专注于图像识别领域,智铀科技目前主要以结构化数据为主,致力于为企业带来全流程、自动化的建模和部署能力,帮助企业构建人工智能核心,实现AI驱动。

目前,传统行业使用机器学习仍面临着巨大的挑战。

1、建模过程繁琐

2、AI人才匮乏

3、人力成本大

4、算法设计周期长

5、系统实施维护困难

针对这些痛点,夏粉博士带领智铀科技团队开发了自动化机器学习产品“小智”。

小智可以免费试用,支持上限为 200MB 的 CSV 训练数据量、10MB的数据预测,无需编写代码,学习数学,就可以让你亲身体验机器学习的魅力。模型精度也无需担心,小智可以帮您完成简单便捷、高质高效的建模。

试用方法:进入智铀科技官网,在产品页面点击免费试用即可

智铀科技发布的自动化机器学习产品“小智”,可以自动构建高精度模型,为用户提供从数据预处理、特征工程、模型调参、模型评估、模型预测到结果分析等一站式服务,其独创的参数搜索算法解决了人工调参费时耗力的问题,独创的特征工程算法,令组合特征挖掘效率提升上千倍。另外,小智还支持千亿样本、千亿特征数据量,模型从浅层到深层灵活支持。

除了以独创的算法实现了自动建模,小智在产品的交互方面也贯彻着简单易用的原则,直观的web界面允许任何人和小智进行交互,不需要AI背景,用户也可以一键完成建模,内置的可视化效果,如ROC曲线图和准确&召回曲线,能够使用户对自己的业务有更深刻的理解。据某银行客户介绍:“在通用场景下,普通业务人员借助小智也能达到高级建模人员水平。”

随着互联网+时代的到来,大数据在企业的落地应用正在快速增长,而数据安全,也成为众多企业的顾虑,这也催生了企业对于私有化部署的需求。据悉,小智将以产品的形式提供给行业,除了支持公有云、SAAS模式外,还提供私有化部署。

AutoML仍然是一个在摸索中的新兴领域,谁能抢占技术占领市场尤为重要。目前,智铀科技已经与金融、医疗、物联网等多个行业的公司合作为其提供服务,产品的功能应用涵盖点击率预估、反欺诈侦测、市场精准营销以及个性化推荐等,满足不同场景的不同需求,同时产品的有效性经过实践验证,不但能够为企业带来收入的增长并且节省成本。

整体建模流程

机器学习建模过程一般包含多个步骤,首先,数据科学家要对业务问题进行定义,抽象为数学问题;对获取到的数据进行分析、理解、 清洗,划分;其次进行特征工程,如特征衍生、特征组合、特征选择等,然后才能开始进行建模、训练、预测等。在小智平台,用户只需上传数据,选定目标名称,其余步骤包括数据预处理、特征工程、调参、训练及预测,得到分析结果,部署和监控模型均由小智完成,实现真正端到端的全程自动机器学习。这大大减少了缺乏机器学习知识用户的使用难度。

机器学习工作流图(绿色圆柱块表示数据,为整个工作流的基础,蓝色的方块为一个简单的建模流程,有简单问题只需要走完蓝色方块就结束了,黄色的两个方块为模型需要上线,持续优化改善的部分)

机器学习工作流如上图所示,整个流程以数据为中心,循环往复。在使用小智的过程中,首先要收集建模需要的数据,可能是业务相关数据,也可能是从网上爬取的一些信息。我们可以将这些结构化数据转换为csv宽表或txt文件,放在本地、数据库或HDFS上,然后上传至小智,对数据集的格式进行调整,例如编码、分隔符、空值标识、首行是否为特征名称等。至此,用户负责的数据准备之前的步骤便完成了。

下一步为建立模型。当用户上传数据到小智平台后,小智会检查和清理数据,并且会以数据科学的角度给出所有特征的数据画像。用户选择建模目标后就可以开始“一键式”自动化建模了。小智会依次完成从数据清洗、特征工程、调参、选择最优算法、搭建模型、模型评估、模型发布的全过程,实现真正的“一键式”建模。模型评估阶段可以监控模型的预测性能,当用户认为预测结果不理想时可以选择重新训练模型以达到理想的预测结果。当用户完成模型训练并且选择了合适的模型后,就可以部署模型了。 部署后,可以上传CSV预测文件,对上传的数据进行批量预测,或者使用模型API 进行实时预测。

案例分析

为了实际感受小智的效果,并了解它到底和人工建模相比有什么优势,我们使用一个广告点击预测案例来说明,即通过广告系统的结构;流量预估:设备号、手机,区域(经纬度)、访问时间;广告主专业:新型游戏等;创意特征;投放之后定向的特征;广告位;环境等特征来预测某条投放广告是否被点击。

点击率(click-through rate)是评价在线广告效果的重要指标,对点击率进行预测建模在线广告商尤为重要。我们可以用历史的广告投放数据建立一个模型,输入未来一段时间的广告投放数据进行模型验证。分别进行小智自动化建模和手动建模。

小智数据怎么做

该建模数据集是在线广告点击率预测竞赛的数据,来自Kaggle竞赛,通过广告ID、是否点击、位置栏位、网站域名、网站种类、应用ID、应用领域、设备编号等属性来预测广告是否被点击。本案例分析中我们只截取了其中一部分数据集,并做了必要的数据清洗,每条样本为一条广告投放并且标记了是否被点击的数据,最后一列“click”为目标,1表示点击,0表示未点击。已预先划分好数据集,“train.csv”为训练集,“test.csv”为预测集。训练样本集共320473个,预测样本79527个,特征维度为23维。

在上传数据阶段,可以看到有一个虚线框,点击虚线框火将文件拖拽至此即可实现上传。虚线框中还有“点此下载测试数据”和“下载数据匿名化工具”两个选项,我们提供了一些公开的测试数据可供用户下载测试,加入用户不想让自己的数据上传到公有云上,可以下载数据匿名化工具对数据进行简单的加密,使得数据特征名称、敏感特征值隐藏,而且不会影响模型效果。

上传数据后,可以看到小智中的数据概览,点击“确定并生成画像”进入到下一步,接着通过可视化操作选择要预测的目标变量与可用的特征变量,保存特征列表后即可进行模型训练。对于分类任务,特征变量可以分为类别型和数值型,小智可以自动检测变量类型,用户也可以根据需求自定义修改类型,这又会节省很多精力。

小智的上传数据界面

原始训练数据样本集概览

经过匿名化处理的训练数据样本集概览

确定目标变量无误后,小智会根据目标变量自动分析模型类型,以及分析特征变量,并给出自动质量修复方案。

数据画像示例

小智建模怎么做

处理完数据后就可以开始建模了,小智全自动建模不需要用户做任何操作,只要等待模型训练完成即可。目前只支持二分类和回归,主要采用常用的LR和GBDT算法,兼顾了性能与可解释性。之后小智会进行自动建模、调参,用户可以选择模型中结果较好的一个。

模型训练完后可以查看训练足迹、模型评估、以及模型描述。

其中模型评估中有ROC曲线、Lift提升度、KS曲线、精确&召回曲线等指标,AUC等指标采用交叉验证的计算值,Lift、KS等采用的是验证集上计算出的指标。模型评估是我们评价模型好坏的标准,在预测数据集上也有同样的一个评估模块。在模型描述中我们有特征重要性查看和归因解释,我们可以看到在模型中排列在前面的一些特征,比如我们可以选择top K进行重新建模,在以后收集数据时特别注重这些特征的完整性和正确性等。原因解释可以查看预测正确的样本的哪些属性占主要正向原因,哪些属性占主要的负向原因。还可以查看真实值和预测值相差最大的top K个样本,查看是否是异常数据样本。

模型描述中的特征重要度

模型描述中的原因解释

小智部署怎么用

最后的部署就比较简单了,确定最合适的训练模型,然后选择发布即可下载模型部署或者调用API,配合SDK使用进行预测就行了。一般小智可以通过数据源或 API 进行模型部署,其中数据源采用本地 CSV 文件。

与一般工程师人工建模效果对比

如下图所示,通过运用小智建立的广告点击预测模型,在预测集上的AUC 可达到 0.7294,能够较准确地识别出广告流量是否被点击,为广告投放提供了重要支持;分析团队在收集到相关数据后,利用小智平台能够在 1 小时内迅速构建出模型并完成预测;整个过程仅需要一名普通水平的数据分析师即可完成整个建模预测工作,不需要任何外部顾问,从而节约了大量成本。

在实际应用中,小智不仅在广告推荐领域,还有包括金融、能源、医疗、新零售、物流、制造、游戏等众多领域的中都有很好的表现。

小智在预测集上的AUC 达到 0.7294

一般的算法工程师,借助开源算法库sklearn中的GBDT、RF、LR、Adaboost,以及Xgboost五种算法模型进行建模分析。看到建模效果最好的模型是GBDT,AUC只有0. 7108,小于小智自动建模的AUC 0.7294。

对比银行某产品推荐的人工建模效果

建模场景: 预测目标客户在1个月内购买产品(5种产品)的可能性;

建模规模: 约3700万户;

建模数据: 根据客户前一个月的表现,对5类产品的持有和未持有分开建立10个模型,每个数据集大小为200MB—8G;

建模效果: 与行内建模团队模型效果基本相符。建模效率提升了近10倍,在合作银行中一个人工模型上线一般需要2月左右,小智只需要不到一周就能完成建模,且能和银行内已有应用系统无缝融合。

对同一模型评价指标的分值,评估级别计算方法为: (小智分值-行内基线)/行内基线

最终效果对比表

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
智能产品
人工智能

相关文章

  • IoT开发者为王,涂鸦智能硬核“靠边站”

    IoT盛宴:涂鸦向下,产品向上

    标签:
    人工智能
  • IPO观察丨黑芝麻智能递表港交所,车芯行业已迈向量产决战期?

    虽然我国汽车芯片行业还处在发展初期,但已经迸发出无限潜力。一方面,智能汽车的发展不断带动需求增长;另一方面,政策引导下,汽车芯片企业持续抢占高地。对此,在7月5日-7日举办的2023年中国汽车论坛上,中国汽车工业协会副秘书长李邵华就做出表示,“中国将成为未来汽车芯片发展的集聚地”。车规芯片行业近日的

    标签:
    人工智能
  • 倒计时2天丨云天励飞将亮相世界人工智能大会

    2023世界人工智能大会将于7月6日至8日在上海举办。云天励飞将在大会上展示自主设计开发的新一代边缘计算芯片DeepEdge10系列SoC芯片,并公布“天书”大模型的最新动态。欢迎莅临上海世博展览馆H1-C801展台参观交流!同时,云天励飞也将与中国电子、中国信通院、华为等合作伙伴,在WAIC的舞台

    标签:
    人工智能
  • 酷学院智能产品发布会:引领中大型企业学习新潮流

    近日,酷学院智能产品发布会在深圳闪亮登场。近200位现场观众和近万人次在线观看,共同见证了这一激动人心的时刻。发布会上,酷学院引领大家探索企业培训学习和人才发展领域的新高度,并揭幕其全新的产品智能升级和突破。酷学院产品负责人徐晨通过形象生动、逻辑严谨的讲述,揭晓了全新的智能企业培训和人才发展平台,以

    标签:
    人工智能
  • 青少年在科创新活动中受益:人工智能教育开启未来的可能性

    随着人工智能技术的快速发展,各行各业都受到了深刻影响,特别是中小学人工智能教育的普及,已经成为当今不可忽视的重要课程。ChatGPT等人工智能技术的出现,让我们看到了人工智能将成为未来推动科技跨越发展、生产力整体跃升的重要驱动力量之一。在这个背景下,中小学教育已经将人工智能作为重要学习内容,并将科技

    标签:
    人工智能
  • 吴林林专访黄锦辉:年轻人要像懂中文一样懂A

    2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。来自深圳的学生吴林林作为主办方记者团成员,采访了大会嘉宾:全国政协委员、香港特别行政区立法会议员、香港中文大学工程学院副院长、IAEPC联合发起人黄锦辉先生。在吴林林的采访中,黄锦辉教授勉励年轻人要像懂中文和英语一样懂AI,

  • 本以为DeepSeek天下无敌了,没想到Manus更猛

    昨天新出了一个AI,据说比DeepSeek还牛,而截止到今早,已经有10万人在排队申请Manus邀请码了,而且它邀请码已经炒到10万了。这是北京的一家人工智能公司蝴蝶科技,创始人是一名来自华中科技大学的90后毕业生肖弘,突然向全球宣布:世界上第一款真正的人工智能、通用智能体产品出现了,名叫Manus

    标签:
    ai智能
  • 库克已纳投名状:苹果AI没得选,只能选百度

    苹果16弄了两个版本,一个是专门给中国人用的,准备用百度的AI,还要交钱。第二个是全世界都可以用的,用了ChatGPT,包括台湾、香港、澳门都可以用。以后都这样了。好,问题就出在这,苹果和百度的合作出现问题了,新闻连起来看,才能明白其中含义。新闻一:苹果正在和腾讯、字节初步接洽,考虑将二者的AI模型

  • AI加速时代的“进度条”,我们拨动了百分之几?

    “技术日新月异,人类生活方式正在快速转变,这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切,都开始变得陌生。”计算机之父约翰·冯·诺依曼曾这样说到。

    标签:
    ai智能
  • AI视频赛道,要变天了

    “毁灭你,与你何干?”,这是在刘慈欣的科幻小说《三体》里用来形容人类与三体人之间的战争的一句话。

    标签:
    ai智能
  • “创造市场”与“算法进化”,中美AI竞速的岔路口

    “人工智能的商业模式,是要创造一个市场,而非一个算法”。这是世界AI泰斗MichaelI.Jordan的观点。而当前的全球AI市场,占据主导地位的中美双方,却也走出了两条截然不同的技术路径,前者执着于前沿技术的探索,后者则发力应用优化和商业化落地。南辕北辙的两个方向,或许已经无法直接进行排位先后、优

    标签:
    ai智能
  • 智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

    智能体进化发展了一年,现在的RPAAgent迭代到什么程度了?从实在智能最新发布的实在Agent7.0,看RPAAgent的迭代升级抓取豆瓣信息、自己制作PPT,这款AIAgent真的实现了流程全自动化AIAgent构建到执行全自动化,持续进化RPAAgent再次降低智能体应用门槛实在智能重磅发布实

  • 崔大宝:大模型降温背后的难点、卡点、节点

    崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型

    标签:
    大模型
  • 这一届“出道”的数字人,已经拿捧上了“铁饭碗”

    文|智能相对论作者|陈泊丞好消息!你心心念念的事业单位发录取公告了!坏消息!他们没录你,录了个数字人。图片来源网络随着数字人技术的突破,越来越多的传统企业和机构开始用上了“数字员工”。甚至很多中国人心心念念的“铁饭碗”,也被这些数字人给捧上了。数字人捧上了“铁饭碗”简单翻看一下全国各地事业单位的“录

    标签:
    数字人