大赛说明
  • 个人赛
  • 团队赛

赛制说明

基本说明

个人赛要求选手针对大赛提供的数据集,对数据进行初步的统计分析和理解。基于分析的初步结果,对数据进行清洗。确定预测思路,选定预测方法,并最终具体实现分析和预测。

个人赛主要考核选手对数据的理解能力,掌握数据分析的基本原理与有效的数据分析方法的能力,并能将其灵活运用到实践工作中的工程实现能力。最后考察选手对于结果的分析能力以及数据可视化的展现能力。

个人赛初赛(线上实操赛)

赛题说明1

城市PM2.5浓度是人们非常关心的一个问题。本赛题要求参赛者利用某地区的基本环境信息以及过去数年的该地区PM2.5浓度,来预测下一年该地区PM2.5浓度。赛题中提供了大约52854条某地区的基本环境信息,以及2010年1月-2015年12月期间的该地区的PM2.5浓度。

第一阶段:参赛者根据建立的模型,使用2010、2011、2012年的数据对特征数据集中该地区在2013年的PM2.5浓度进行预测,并将预测结果按时提交到平台上;

第二阶段:使用2010、2011、2012、2013年的数据对特征数据集中该地区在2014年的PM2.5浓度进行预测,并将预测结果按时提交到平台上;

第二阶段:使用2010、2011、2012、2013年的数据对特征数据集中该地区在2014年的PM2.5浓度进行预测,并将预测结果按时提交到平台上;

第三阶段:使用2010、2011、2012、2013、2014年的数据对特征数据集中该地区在2015年1月到12月的PM2.5浓度进行预测,并将预测结果按时提交到平台上。

数据描述2

赛题训练数据集包含3个文件,分别为:train_10_12.csv(2010、2011、2012三年的该地区的基本环境数据以及PM2.5浓度)、train_13.csv(2013年的该地区的基本环境数据以及PM2.5浓度) 、train_14.csv(2014年的该地区的基本环境数据以及PM2.5浓度)。

特征数据集包含3个文件,分别为:

fea_13.csv(2013年的特征数据集)、fea_14.csv(2014年的特征数据集)、fea_15.csv(2015年的特征数据集)。

其中:环境信息以及PM2.5的数据格式:

No: row number 数据id 范围 1-52854

year: year of data in this row 年

month: month of data in this row 月

day: day of data in this row 日

hour: hour of data in this row 小时

season: season of data in this row 季节

PM: PM2.5 concentration (ug/m^3) PM2.5浓度

DEWP: Dew Point (Celsius Degree) 露点

HUMI: Humidity (%) 湿度

PRES: Pressure (hPa) 气压

TEMP: Temperature (Celsius Degree) 温度

cbwd: Combined wind direction 风向

Iws: Cumulated wind speed (m/s) 风速

precipitation: hourly precipitation (mm) 每小时降水量

Iprec: Cumulated precipitation (mm) 累计降水量

结果提交3

【第一阶段】利用建立好的预测模型,利用数据集train_10_12.csv和特征数据集fea_13.csv 对2013年1月到12月PM2.5进行预测,建立一个predict_13.csv文件,列出相关数据id顺序,生成如下的内容,存为csv格式文件,上传到大赛平台上。

提交的文件格式如下:(predict_13.csv)

id,    PM_US_Post

26305,预测结果

26306,预测结果

26307,预测结果

35064,预测结果

注:预测数据集中的数据id范围为:26305——35064。

【第二阶段】利用建立好的预测模型,利用数据集train_10_12.csv和train_13.csv两个数据集之和以及特征数据集fea_14.csv对2014年1月到12月PM2.5进行预测,建立一个predict_14.csv文件,列出相关数据id顺序,生成如下的内容,存为csv格式文件,上传到大赛平台上。

提交的文件格式如下:(predict_14.csv)

id,    PM_US_Post

35065,预测结果

35066,预测结果

35067,预测结果

43824,预测结果

注:预测数据集中的数据id范围为:35065——43824。

【第三阶段】利用建立好的预测模型,利用数据集train_10_12.csv ,train_13.csv和train_14.csv三个数据集之和以及特征数据集fea_15.csv对2015年1月到12月PM2.5浓度进行预测,建立一个predict_15.csv文件,列出相关数据id顺序,生成如下的内容,存为csv格式文件,上传到大赛平台上。

提交的文件格式如下:(predict_15.csv)

id,    PM_US_Post

43825,预测结果

43826,预测结果

43827,预测结果

52584,预测结果

注:预测数据集中的数据id范围为:43825——52584。

结果评定4

(1)个人赛将以三个模型结果与真实数据(realdata_13.csv、realdata_14.csv、realdata_15.csv、)进行比较,按照预测结果与真实值的均方误差(MSE)均值来评价成绩,MSE越小排名越高,并依此维护排行榜。

其中m为测试集数据量, 片为测试集实际数值, 为模型预测数值。

(2)分数计算。参赛选手MSE值将转换成标准分。

组委会将根据参赛的实际情况进行如下分数换算:

最高分为100分,最低分为60分, 选手的当前得分为C. 预测的最大MSE为MSE1(成绩最差), 最小MSE为MSE2(成绩最好),当前选手的MSE为MSE0, 选手的当前得分为:C=100- ((MSE0-MSE2)/(MSE1-MSE2))*(100-60)

注:①分数将以四舍五入的方式保留小数点后三位。

②由于最大MSE值与最小MSE值的跨度可能会非常大,为了更好地反映选手的实际成绩,组委会将根据实际情况制定最大MSE值,超过最大值的手成绩则会被视为不及格,不列入分数计算范围。

(3)考核结果。选手初赛最终成绩为三个阶段得分总和的平均分

其中表示第i个阶段模型的得分,越大排名越高,并依此维护初赛最终排行榜。选手初赛的总得分越高,排名越靠前,共选出30名选手晋级个人赛决赛。

个人赛决赛(理论赛)

覆盖内容1

大数据定义、特征、大数据平台,大数据计算模式,大数据安全等(更详细的考核范围请参考大赛官网)。

考核时间2

2020年10月14日08:00-23:59自选时间段。

考试形式3

单项选择题,满分100分,考试时间为50分钟;

考核结果4

参赛选手的决赛总分=初赛(线上实操赛)成绩*80%+决赛(理论赛)成绩*20%,总分从高到低依次排名,选出11名选手参加个人赛总决赛。若本环节成绩相同者,以实操赛成绩高者为先,若仍不能分出先后,则名次并列。

个人赛总决赛(现场答辩)

进入总决赛的选手,需就提交的实操结果准备相关答辩材料,并在决赛上进行展示与讲解(限定展示8分钟+评委提问5分钟)。

作品提交要求1

选手需就提交的实操结果准备相关答辩材料(包括答辩PPT、相关模型代码或证明材料等相关资料等),以PPT形式讲解预测建模思路、算法实现、结果分析等。

评分标准2

评委根据评分要点对选手的答辩情况进行打分。答辩满分100分,具体如下:

评分要点 评分细则 分值
数据分析与清洗 考察选手对数据的理解程度 15
预测建模思路 考察选手思路是否清晰以及将实际问题抽象成模型的能力 20
算法实现 考察对手对于算法的构建能力以及算法逻辑结构 25
结果分析 考察选手对结果的分析是否清晰、具有逻辑性 25
现场表现 1、思路明确,展示内容逻辑性强,层次分明;2、正确理解评委提问,及时流畅作答,回答内容切题 15
结果评定3

(1)总分计算及排名:参赛选手的总分=初赛(线上实操赛)成绩*55%+决赛(理论赛)成绩*10%+决赛(线下答辩)成绩*35%,总成绩从高到低依次排名,评出技术状元1名与技术能手10名;

(2)总成绩相同者,以实操赛成绩高者为先,若仍不能分出先后,则名次并列。

赛制规则

选手须知

1、参赛选手或队伍需在限定时间内线上注册,并完善参赛资料。参赛者应当保证身份信息的真实性。大赛组织方承诺对个人信息中所有涉及个人隐私的内容予以保密。

2、参赛选手需在限定时间内,提交方案,过期则当弃权处理。

3、参赛项目的所有权归选手所有,选手需对所提交成果负责,确保原创。

答辩赛规则

1、参赛选手须持队员身份证到答辩现场领取竞赛组委会签发的参赛证,凭证参加答辩竞赛。

2、参赛选手均需到场参加答辩。

3、参赛选手须按竞赛时间提前15 分钟检录进入赛场,开赛前5分钟停止进场。开赛前5分钟未进入考场视为自动放弃竞赛资格。

4、参赛选手应严格遵守赛场纪律,除携带竞赛必备的参赛证、身份证和相关资料外,所有未经允许的竞赛技术资料、录音录影工具设备、手机等物品不得带入竞赛现场。

5、参加答辩的选手需提前准备答辩材料,包括答辩PPT、创意方案的相关证明材料等。

6、选手必须在规定时间内完成答辩,不得超时答辩。

赛场处理

1、各类赛务人员必须统一佩戴由竞赛组委会签发的相应证件,并着装整齐。

2、赛场除现场裁判、赛场工作人员以外,其他人员未经允许不得进入赛场。

3、新闻媒体等如需要进入赛场必须经过竞赛办公室允许,并且听从现场工作人员的安排和管理,不能影响竞赛进行。

4、竞赛现场不允许抽烟,大声喧哗,不得影响竞赛选手比赛。

裁判组织

由竞赛组委会组织专家和评委,负责竞赛的评审工作。

报名流程

赛程安排

具体赛程安排如下表

环节 日期 地点 具体内容 备注
报名 即日起至 9月18日17:00前 线上 1.提交电子版报名表至2407436281@qq.com;
2.登录大赛官网进行注册登录。
选手需在截止时间前完成网上注册,否则视为自动放 弃比赛资格。
实操赛
(初赛)
第一阶段
9月8日14:00- 9月22日14:00
大赛
官网
平台开放第一批数据,选手进行第一阶段结果提交;9月22日14:00截止提交。 期间选手每阶段可重复多次提交结果,平台根据选手各阶段的最佳成绩综合分刷新排行榜,排行榜显示前30名选手进入决赛。
第二阶段
9月22日14:00-9月28日14:00
平台开放第二批数据,选手进行第二阶段结果提交;9月28日14:00截止提交。
第三阶段
9月28日14:00-10月13日14:00
平台开放第三批数据,选手进行第三阶段结果提交(最终提交);10月13日14:00截止提交。
理论赛
(决赛)
10月14日08:00-23:59 选手在当天自选时间段参赛,限时50分钟。
公布个人赛
总决赛名单
10月16日 公布个人赛总决赛名单,并进行公示。 决赛总分=实操赛成绩80%+理论成绩20%,排行榜显示前11名进入总决赛。
决赛答辩PPT提交 10月23日14:00前 线上提交最终答辩方案。 入围总决赛的选手需就提交的实操结果准备相关答辩材料(包括答辩PPT、相关证明材料等),讲解预测建模思路、算法实现、结果分析等。
总决赛
路演与展示
10月30日 佛山禅城 选手参与现场答辩。 第一阶段 9月8日14:00- 9月22日14:00

联系方式

联系方式

tel:0757-82723368

QQ:2407436281(工作日在线:8:30--17:30)

Email:2407436281@qq.com

  • 扫一扫,关注数创岭南公众号 随时了解最新资讯

  • 扫一扫,关注佛山市互联网协会公众号 随时了解最新资讯

赛制说明

基本说明

参赛队伍通过自带数据,提出一个大数据应用的创意解决方案。参赛作品需对问题需求、价值导向(商业价值和社会效益)、应用的整体构思(拟采用的技术架构和产品架构)、数据使用等关键要素作概要性介绍。

团体赛初赛

提交作品要求1

参赛者提供创意解决方案(ppt(建议)或pdf格式),内容需包括但不限于:

作品摘要——对创新应用做整体介绍;

问题需求——描述作品适用的应用场景,清楚说明所解决的问题和受众;

数据使用——描述应用使用过的各项数据,并详细说明不同数据如何进行整合及应用;

技术介绍——说明创新应用开发的整体技术架构和思路,应用开发的相关技术细节,数据处理采用的主要技术、算法、流程等;

原型测试——详细说明原型的使用方法、测试用例、原型局限性;

应用成果——说明作品的预期应用成果;

价值导向——说明作品的潜在商业价值和社会价值。

注:每支参赛团队仅能提交一个参赛作品。

评审流程2

组委会将对作品进行初赛海选,选出30支队伍的作品进入决赛。

团体赛决赛(预评审)

专家评委将对决赛作品进行评分,分数越高,排名越靠前,以此决出11支队伍进入总决赛,并提出评审优化意见。

评分标准1

满分100分,具体如下:

评分要点 评分细则 分值
方案描述 方案完整,逻辑思路清晰。 10
创新性 具有原始创意特点,解决现实问题; 思维新突破,具有先进性和独特性。 10
技术含量 创新应用开发的整体技术架构和思路,应用开发的相关技术细节,数据处理采用的主要技术、算法、流程等。 15
数据使用 对使用过的各项数据进行整合及应用的能力。 15
商业价值 行业调研:鼓励田野调查和实际操作检验,形成项目现况的一手资料。 10
商业模式:完整描述商业模式,测评其商业效益和推导过程的合理性。 10
社会效益 社会发展前景分析的合理性;对社会发展的影响力。 10
可行性 方案是否具有较强可行性。 10
团队能力 考察团队成员的价值观念,分工与业务互补情况。 10

团体赛总决赛(现场答辩)

进入总决赛的团队,需根据评审意见对方案进行优化,修改在总决赛现场发布的方案宣传材料,并在总决赛上对方案进行介绍(限定展示10分钟+提问5分钟)。

提交作品要求1

(1)参赛团队需按时提交答辩现场的展示素材,以PPT形式对创新应用方案进行演讲解说,包括但不限于文字、图片、视频等,使用中文或繁体中文。

(2)需提交作品原型及其原型文档。(作品原型的形式包括但不限于移动应用(apps)、可视化、分析报告、demo等形式,需提交可供应用原型下载或测试的网络链接,以及下载或使用说明,所有素材包括但不限于文字、图片、视频等,文字均需为中文或繁体中文)。

评分标准2

评委根据评分要点对选手的答辩情况进行打分。答辩满分100分,具体如下:

评分要点 评分细则 分值
方案描述 方案完整,逻辑思路清晰。 10
创新性 具有原始创意特点,解决现实问题; 思维新突破,具有先进性和独特性。 10
技术含量 创新应用开发的整体技术架构和思路,应用开发的相关技术细节,数据处理采用的主要技术、算法、流程等。 10
数据使用 对使用过的各项数据进行整合及应用的能力。 10
商业价值 行业调研:鼓励田野调查和实际操作检验,形成项目现况的一手资料。 10
商业模式:完整描述商业模式,测评其商业效益和推导过程的合理性。 10
社会效益 社会发展前景分析的合理性;对社会发展的影响力。 10
现场展示与答辩 思路明确,展示内容逻辑性强,层次分明; 正确理解评委提问,及时流畅作答,回答内容切题。 10
评审流程3

总决赛评委在总决赛现场听取参赛者关于作品的介绍并打分,综合多位评审的打分结果评比获奖队伍。评出团体赛一等奖、二等奖、三等奖。

赛制规则

选手须知

1、参赛选手或队伍需在限定时间内线上注册,并完善参赛资料。参赛者应当保证身份信息的真实性。大赛组织方承诺对个人信息中所有涉及个人隐私的内容予以保密。

2、参赛选手需在限定时间内,提交方案,过期则当弃权处理。

3、参赛项目的所有权归选手所有,选手需对所提交成果负责,确保原创。

答辩赛规则

1、参赛选手须持队员身份证到答辩现场领取竞赛组委会签发的参赛证,凭证参加答辩竞赛。

2、参赛选手均需到场参加答辩。

3、参赛选手须按竞赛时间提前15 分钟检录进入赛场,开赛前5分钟停止进场。开赛前5分钟未进入考场视为自动放弃竞赛资格。

4、参赛选手应严格遵守赛场纪律,除携带竞赛必备的参赛证、身份证和相关资料外,所有未经允许的竞赛技术资料、录音录影工具设备、手机等物品不得带入竞赛现场。

5、参加答辩的选手需提前准备答辩材料,包括答辩PPT、创意方案的相关证明材料等。

6、选手必须在规定时间内完成答辩,不得超时答辩。

赛场处理

1、各类赛务人员必须统一佩戴由竞赛组委会签发的相应证件,并着装整齐。

2、赛场除现场裁判、赛场工作人员以外,其他人员未经允许不得进入赛场。

3、新闻媒体等如需要进入赛场必须经过竞赛办公室允许,并且听从现场工作人员的安排和管理,不能影响竞赛进行。

4、竞赛现场不允许抽烟,大声喧哗,不得影响竞赛选手比赛。

裁判组织

由竞赛组委会组织专家和评委,负责竞赛的评审工作。

报名流程

赛程安排

具体赛程安排如下表

阶段 日期 地点 具体说明 备注
报名 即日起至 9月18日17:00前 线上 1.提交电子版报名表至2407436281@qq.com;
2.登录大赛官网进行注册登录。
选手需在截止时间前完成网上注册,否则视为自动放 弃比赛资格。
选拔赛 9月29日14:00前 大赛官网 选手第一次提交创意方案 参赛作品的详细要求请留意大赛赛制;选拔赛将筛选出30支团队进入决赛。
总决赛 预评审 10月9日- 10月15日 佛山禅城 专家评审。 团体赛总决赛预评审,决出11支队伍进入总决赛,并提出优化建议。
决赛答辩PPT提交 10月23日14:00前 大赛官网 线上提交最终答辩方案。 选手团体需就提交的方案准备相关答辩材料。
总决赛路演与展示 10月30日 佛山 禅城 团队参与现场答辩。 团队现场展示10分钟+评委提问5分钟;评委现场评分。

联系方式

联系方式

tel:0757-82723368

QQ:2407436281(工作日在线:8:30--17:30)

Email:2407436281@qq.com

  • 扫一扫,关注数创岭南公众号 随时了解最新资讯

  • 扫一扫,关注佛山市互联网协会公众号 随时了解最新资讯