大数据建模、分析、挖掘技术应用研修班
各企事业单位:
随着2015 年9 月国务院发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据正确使用正确的方法获得正确的结果。
为响应科研及工作人员需求,根据《国务院关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化,建立职业分类动态调整机制,加快职业标准开发工作”要求,中国管理科学研究院现代教育研究所(http://www.zgyxdjy.com)联合北京龙腾亚太教育咨询有限公司特举办 “大数据建模、分析、挖掘技术应用研修班” 。本次培训采用实战培训模式。
本次培训由北京龙腾亚太教育咨询有限公司、北京新鼎聚成文化传媒有限公司承办,并进行相关费用收取及发票开具。具体通知如下:
一、时间安排:
2022 年 8 月 5 日 — 2022 年 8 月 9 日 北京(同时转线上直播)
二、培训目标
- 掌握大数据建模分析与使用方法。
- 掌握大数据平台技术架构。
- 掌握国内外主流的大数据分析与BI 商业智能分析解决方案。
- 掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
- 掌握主流的基于大数据Hadoop 和Spark、R 的大数据分析平台架构和实际应用。
- 掌握基于Hadoop 大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop 平台形成大数据分析平台的应用剖析。
- 掌握常见的机器学习算法。三、培训专家
来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研 及工程技术经验,长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。
四、参会对象:
各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研 院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及大数据研究广大爱好者。
五、费用标准:
5680 元/人(含报名费、培训费、资料费、证书费)。食宿可统一安排,费用自理。
1、培训费由组织培训班的施教机构负责收取并提供培训发票。
2、上课前一周汇款可享受 9 折优惠,或报名 5 人以上可享受 9 折优惠,两个优惠不同时享用。
3、参加线上、线下培训学员均可享受视频录播回放权益 六、颁发证书:
参加相关培训并通过考核的学员,由中国管理科学研究院现代教育研究所颁发**《大数据开发与应用工程师》**
(高级)岗位认证证书,可通过官方网站查询,该证书可作为有关单位专业技术人员能力评价、考核和任职的重 要依据。
注:报到时请提交电子版彩照(大于 20KB,红蓝底皆可)、身份证复印件和学历证明复印件各一份。七、注意事项
1.指定报名邮箱: 1791865241 @ qq . com 。
- 报名成功后,会务组在报到前一周发具体报到通知及行车路线,并电话告知。
- 学员需自备电脑WIN10 电脑64 位系统,16G 及以上内存,硬盘空间预留100G。
八、具体课程安排
时间安排 | 课程大纲 | 详细内容 | 实践训练 |
---|---|---|---|
第一天 9 : 00-12 : 00 14 : 00-17 : 00 | 一、大数据概述 | 1. 大数据及特点分析 2. 大数据关健技术 3. 大数据计算模式 4. 大数据应用实例 | |
二、大数据处理架构Hadoop | 1.Hadoop 项目结构2.Hadoop 安装与使用3.Hadoop 集群的部署与使用4.Hadoop 代表性组件 | 1. Hadoop Single Node Cluster 2. Hadoop Multi Node Cluster | |
三、分布式文件系统HDFS | 1. HDFS 体系结构2. HDFS 存储3. HDFS 数据读写过程 | 1. 创建与查看HDFS目录2. 从本地计算复制文件到HDFS3. 将HDFS文件复制到本地计算机4. 复制与删除HDFS文件5. Hadoop HDFS Web 浏览HDFS | |
四、分布式数据库HBase | 1. HBase 访问接口2. HBase 数据类型3. HBase 实现原理4. HBase 运行机制5. HBase 应用 | ||
第二天 9 : 00-12 : 00 14 : 00-17 : 00 | 五、 MapReduce | 1. MapReduce 体系结构2. MapReduce 工作流程3. 资源管理调度框架YARN4.MapReduce 应用 | |
六、Spark | 1. Spark 生态与运行架构2. Spark SQL 3. Spark 部署与应用方式 | 1. Python Spark 安装2. 本地运行pyspark 程序3. 在Hadoop YARN 运行pyspark 4.SparkWeb UI | |
七、IPython Notebook** 运行Python Spark 程序** | 1. Anaconda 2. IPython Notebook 使用Spark3. 使用IPython Notebook 在HadoopYARN 模式运行 | 1. 在不同模式运行IPython Notebook 运行Python Spark命令2. Python 程序开发 | |
八、 Python Spark****集成开发环境 | 1. Python Spark 集成开发环境部署配置2. Spark 数据分析库MLlib 的开发部署 | Spark MLlib应用程序示例 | |
第三天 9 : 00-12 : 00 14 : 00-17 : 00 | 九、 Python Spark决策树二分类与多分类 | 1. 决策树原理2. 大数据问题3. 决策树二分类 | 1. 搜集数据2. 数据准备:导入并转换数据、提取特征字段、提取标签 |
4.决策树多分类 | 3. Python Spark 建模,训练模型4. 预测数据5. 评估数据,给出评价指标并得到评估结果 | ||
---|---|---|---|
十、 Python Spark****支持向量机 | 1. 支持向量机SVM 原理与算法2. Python Spark SVM 程序设计 | 1. 数据准备2. 建立SVM模型,训练模型3. 评估参数并找出最优参数4. 根据模型进行预测 | |
十一、 Python Spark****贝叶斯模型 | 1. 朴素贝叶斯模型原理2. Python Spark 贝叶斯模型程序设计 | 1. 建模贝叶斯模型,并进行对参数估计2. 训练模型,得到最优参数3. 根据模型进行预测 | |
十二、 Python Spark****逻辑回归 | 1. 逻辑回归原理2. Python Spark 逻辑回归程序设计 | 1. Python Spark 逻辑回归建模2. 根据模型进行分类 | |
第四天 9 : 00-12 : 00 14 : 00-17 : 00 | 十三、 Python Spark****回归分析 | 1. 大数据分析2. 数据集介绍3. Python Spark 回归程序设计 | 1. 数据准备2. 训练回归模型3. 建立评估指标4. 训练回归模型,并找到最优参数5. 根据模型进行预测 |
十四、 Spark MLPipeline机器学习流程分类 | 1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等2.使用Spark ML Pipeline机器学习流程分类程序设计 | 1. 数据准备2. 建立机器学习Pipeline 流程3. 使用Pipeline 流程训练4. 使用PipelineModel 预测5. 评估模型准备率 | |
十五、 Python Spark****创建推荐引擎 | 1. 推荐算法2. 推荐引擎大数据分析使用场景3. 推荐引擎设计 | 1. 搜索数据2. 准备数据3. 训练模型4. 使用模型进行推荐 | |
十六、项目实践 | 1.日志分析系统与日志挖掘项目实践a、Hadoop,Spark,ELK技术构建日志数据仓库b、互联网微博日志分析系统项目1.推荐系统项目实践a、电影数据分析与个性化推荐关联分析项目 |
联系人: 李 颖 手 机:13716 368357 (微信同号)
电 话:010-81311930 报名邮箱: 1791865241 @ qq . com