动手体验 Elasticsearch 8.4.x 机器学习预测打车价格
1、序言
传统关系型数据库有着很强的ACID特性,也决定了核心应用的首选地位,作为NOSQL数据库产品,要想与传统关系型数据库直接竞争,本质是不太可能,所以必然选择了另外一条协作辅助的路线,如Elasticsearch侧重多维度检索。
图示:数据库热度权威排名,前4位全部是关系型数据库,Elasticsearch仅仅是第7位。
Elasticsearch 产品版本一直保持着非常快的发布节奏,平均每月会发布一次,当前即将发布8.5.x;最早从全文检索特性开始切入,到现在已经成为一个功能特性非常多的数据平台,基于此,我们可以快速的构建多种应用形态,如Elasticsearch机器学习的特性。
图示:7.0.x~7.17.x 持续了近3年 ,发布的密集度非常高;
机器学习一直是一个很热门的话题领域,早先各种人工智能、深度学习的热词满天飞,从业人员也非常多,技术框架产品也非常多,但是快速落地一个机器学习类的应用并不容易,常规下来,需要算法工程师、应用工程师、数据工程师、前端工程师等配合才能完成, 这对于企业的时间与成本是一个非常大的考验,对于小型企业更像是一道高高的墙,阻挡了新技术新形态的引入。
Elasticsearch 自5.x版本开始融入机器学习特性,到目前为止已经融合了分类、回归、聚类、NLP等机器学习能力,基于自身的数据平台整合能力,应用者可以很快的完成一个机器学习应用案例,并提供对外的Restful api;对于应用工程师,机器学习不再神秘,对于算法工程师,机器学习不再担忧工程落地问题。
2、ES机器学习几步走
基于Elasticsearch 机器学习的Restful Api,加上Kibana的可视化操作性,仅仅需要几步就可以完成一个机器学习案例应用。
2.1 准备案例索引数据
可以基于Logstash,快速的导入案例数据,从数据库或者离线文件皆可。
导入数据
图示:导入nyc-tripdata 出租车数据
样本数据
{
"VendorID": 2,
"lpep_pickup_datetime": 1230774807000,
"lpep_dropoff_datetime": 1230776097000,
"store_and_fwd_flag": "N",
"RatecodeID": 1,
"PULocationID": 130,
"DOLocationID": 203,
"passenger_count": 1,
"trip_distance": 7.25,
"fare_amount": 23,
"extra": 1,
"mta_tax": 0.5,
"tip_amount": 0,
"tolls_amount": 0,
"improvement_surcharge": 0.3,
"total_amount": 24.8,
"payment_type": 2,
"trip_type": 1,
"congestion_surcharge": 0,
"pickup_year": 2008
}
2.2 创建机器学习模型
基于kibana可视化能力操作 选择需要的案例索引数据。 选择机器学习模型,选择相关的数据向量。 训练模型
选择机器学习模型
图示:选择机器学习模型
选择数据列
图示:选择机器学习模型
2.3 应用机器学习模型
基于Elasticsearch Ingest管道处理能力,创建对应的Restful api,供外部应用系统集成。
创建应用Api
创建ingest 管道数据处理接口
使用应用Api
外部应用基于restful 实时调用模型
3、课程直播
以上内容简单的介绍了Elasticsearch机器学习的特性与快速应用的步骤,实际Elasticsearch数据平台的带来的便利性远不止于此;为此,我们准备了一次免费的实战直播课,您将获得对于ES更多的认知:
Elasticsearch 机器学习平台与传统机器学习有哪些不一样,为什么选择ES? Elastic stack 技术栈有哪些?如何掌握与组合应用? Elastic Stack 有哪些应用场景?除了机器学习,还可以做些什么? Elastic Stack最佳的实战组合应该是怎么样的?对于ES的认识还是停留在全文检索阶段是否正确?
参考文献
[1] ES机器学习回归函数参考
https://www.elastic.co/guide/en/machine-learning/current/ml-dfa-regression.html
[2] Spark 机器学习参考
https://spark.apache.org/docs/latest/ml-guide.html
[3] scikit-learn 机器学习库参考 https://scikit-learn.org/stable/
关于我们
讲师
李猛 Elastic King 数据领域专家
Elastic Stack 国内顶尖实战专家 ELastic Stack 技术社区分享嘉宾 国内首批Elastic 官方认证工程师21人之一 阿里云MVP(大数据领域) DBAPlus MVP(原创内容贡献者) GitHub:https://github.com/ynuosoft 咕泡教育 《Elastic Stack 架构师P6成长路径》主讲老师。 2012年接触Elasticsearch,对Elastic Stack 技术栈开发、架构、运维、源码、算法等方面都有深入实战。 负责过多种 Elastic Stack 实战应用项目,大数据分析领域、机器学习预测领域、业务查询加速领域、日志平台分析领域、基础指标监控领域、全文分词检索领域等。 服务过多家企业、提供Elastic Stack 咨询培训以及调优实施。 多次在 Elastic Stack 技术社区分享,发表过多篇实战干货案例文章。 十五年IT技术实战从业经验,涉猎行业众多、电商、物流、传统企业等,擅长大数据、系统架构等领域。