时间:2022-04-26 10:01:49来源:网络整理
2.铁路大数据系统架构
本文根据图1中的大数据技术架构,以及铁路大数据产业链及其自身特点,构建铁路大数据系统架构并将其分为五个层次,以满足大数据的需求从数据采集到最终应用端的整个流程如图2所示。
图2铁路大数据系统架构
(1)数据采集层。主要包括数据采集和初步分析,涉及图2中一、二、的第三层。各种传感设备、信息系统等。数据采集的来源主要是安装在机车和动车组上的各种部件、公共工程上的轨道检测设备、车辆上的测量仪器等。信息系统主要包括铁路运输和生产的客货运系统和安全管理系统。此外,还包括服务器设备和网络设备,服务器设备主要满足大数据的云环境,网络设备主要是指数据传输设备,数据可以通过互联网技术和应用智能设备来获取数据,集中统一数据。本应用主要关注图2的第三层,通过wi获取地面综合应用子系统的远程数据Reless网络实现客、货运、公务、供电、电务、安全管理、人才培训、协同办公等业务的数据采集,构建清晰、完整、优质、高可靠的数据资产体系。以6A系统和CMD系统为例。
图3机车车载安全防护系统
①安全管理体系(6A)
图3为机车上的6A系统,即机车车载安全保护系统[23]。主要通过机车上的各种传感器采集实时制动监测、火灾监测、高压绝缘检测、列车供电监测、运行部分监测等。和视频监控六项数据,视频监控为视频数据,其余为文本和图像数据,时间异步数据经过三次样条插值处理,最后通过交换单元传输到外部接口。
②机车信息系统(CMD)
CMD系统基于大数据的企业竞争情报系统模型构建,即机车远程监控诊断系统,主要融合智能装备、大数据和互联网的概念,通过车载LDP设备实时采集机车的各种信息,包括机车安全信息、机车信息状态信息和机车监控信息,数据包括文本数据、图像数据和视频数据。数据通过我国独立的北斗卫星导航系统传输。最后,通过铁路内网实现机车段、路局、总行的三层信息共享。
(2)平台层。主要包括铁路大数据的处理和初步应用,涉及图2第四层。平台层可以通过批量计算、内存满足不同铁路业务类型的需求计算等计算方法 数据计算需求 [24] 铁路安全监控系统包含大量非结构化数据,进行在线实时处理,实现在线人机交互和在线分析 铁路旅客大数据分析提供批量查询技术,实现海量旅客数据 特征分析 另外还有大批量的离线数据,可以通过批量处理技术离线处理,包括各种报表、历史记录等数据建模、数据预测、数据分类和聚类等,支持在线算法处理应用,为铁路分析和决策提供平台支持制造。以乘客数据和基础设施数据为例。
①乘客大数据
客运大数据的处理主要包括数据清洗、聚类、预测等。客运大数据有60多个属性,包括车次、上车日期、上车时间、列车类型、速度等级等因此,针对特定的数据需求,需要进行数据清洗、降维处理和特定属性的选择。然后对特定属性的数据进行聚类,比如对乘客的出行距离进行聚类,可以分为短距离、中距离和长途旅行。在此基础上,根据聚类数据,预测不同出行距离的客流。
②基础设施大数据
铁路基础设施主要包括轨道、接触网、信号、桥梁、隧道等。通过大数据中的数据挖掘和预测分析,对公共工程进行故障检测和故障预测。通过挖掘等方法对接触网运行质量进行评价,通过大数据中的聚类分析和判别分析对通信设施故障进行分类,对不同路局的通信故障进行判别分析。
(3)应用层。主要包括铁路大数据的深度应用,涉及图2第五层,针对各业务领域的数据分析和决策支持需求,可实现多业务数据系统,支持多层次、多用户的分析应用,包括战略决策、运营管理、现场管理等。在运营效益层面,重点关注营销分析、行业竞争分析、客货运输价格管理、成本分析等;开展运营安全隐患预测、交通安全分析、事故调查等;在运输效率方面,开展物资供应分析、运力调配和优化、优化运输组织等;在客户服务方面,开展精准营销、拓展服务、提升产品质量等。
(三)铁路大数据处理流程
铁路是一个庞大的系统,各个领域对数据的采集、处理和分析都有相应的研究,例如:通过CMD系统采集和处理机车数据,通过CMD系统采集和处理机车安全数据。 6A系统,通过TMIS系统采集和处理铁路运输管理数据,通过12306系统采集和处理旅客数据,通过95306平台采集和处理货运数据。随着信息技术的发展,铁路数据采集的频率和准确性不断提高,基于各种数据融合的数据分析方法也越来越多。但是,从大数据流程的角度来看,大部分研究只关注数据流程的几个环节,很难有一个能够完全覆盖全链条的应用。通过比较其他领域的相关研究,铁路大数据流程应该包括铁路数据的采集、预处理、管理、处理、分析等,不同阶段的支持是不同的。在数据采集阶段,主要是各种硬件设备(传感器、转发器、摄像头等)的数据采集和信息系统的数据交换;在数据预处理阶段,主要是数据筛选、数据清洗、数据排序、数据标准化等工作,大部分问题可以通过制定标准或设计算法来解决;在数据管理阶段,更多依赖现有的大数据软件和系统;在数据处理阶段,根据具体应用场景的需要不同的处理平台或技术支持,如分布式处理等;数据分析阶段与应用或需求密切相关,通过设计不同的模型可以获得不同的分析结果。
1.铁路大数据采集
严格来说,数据采集包括“采集”和“采集”。 “采集”是指以数字方式表达对象并形成数据的过程,主要是各种硬件设备和信息系统。 “指数据聚合的过程,主要是传输网络,包括铁路内网、北斗导航、GPRS、WLAN等技术。目前,随着电子技术和信息技术的飞速发展,数据传感设备越来越多铁路领域,传感器和移动终端迅速推广应用,结构化、弱结构化、半结构化和非结构化铁路数据源不断产生,现有研究显示数据采集方式多种多样,包括机车、车辆、基于硬件设备和线路,基于信息系统的运输和生产数据采集越来越高,图片、视频、音频等无格式数据越来越多,比如机车CMD系统没有不仅通过传感器、摄像头等采集机车运行数据,还采集机车6A中的安全数据系统通过数据交换,整合所有机车数据。
2.铁路大数据预处理
实时收集了大量铁路数据。硬件设备的损坏、人工处理的缺陷、传感器的时间不一致等都会导致采集到的数据中出现大量的杂乱、重复和不完整的数据,严重影响后期的数据处理和分析。这会导致有偏见的决定和错误。数据预处理非常重要。例如,在一个完整的数据挖掘过程中,花费在数据预处理上的时间比例可以达到 60% 左右。数据预处理主要包括对采集到的数据进行清洗、提取、整合、转换、数据质量评估等。在铁路数据预处理过程中,应注意以下问题: ①数据清洗侧重于数据源中的噪声数据和无关数据; ② 通过数据抽取技术对数据进行规范化表达和一致性处理; 3)模式层的数据一致性是通过集成实现的; 4)数据变换主要是通过归一化、旋转、投影等操作对数据进行简化,找到数据特征表示; ⑤有效评估数据质量。一致性、正确性、完整性和最小值是数据质量评价的基本指标。例如,在机车能耗数据的处理中,首先要对重复和无效数据进行筛选和清理,整合不同数据库的信息,按照时间标准统一能耗数据。对该标准进行识别和提取,最终得到一个完整的机车能耗数据库。
3.铁路大数据管理
大数据管理是指利用数据库技术、分布式文件系统技术等实现对各种数据的有效组织,达到快速索引、高效查询等目的。传统的数据库技术主要基于关系型数据管理,数据量级相对较小。当面对泛滥的半结构化和非结构化数据时,其可扩展性受到阻碍,难以满足需求。面对种类繁多、形态各异、数量庞大的铁路大数据,需要根据具体需求选择合适的数据库。图存储数据库和文档数据库等非关系型数据库、传统的关系型数据库系统和NewSQL数据库都将在铁路大数据管理中发挥重要作用。例如,在客运大数据管理上,每天有数千辆列车在整条路上运行,产生海量数据。数据预处理后,根据具体需求对数据进行判别,建立数据仓库,形成不同类型的数据库。
4.铁路大数据建模
大数据研究的主要功能是利用数据分析技术获得未知的潜在关联、隐藏的范式、市场和社会规律以及附加值。数据挖掘中的关联、聚类、分类、预测、时间序列模式、偏差分析等传统数据分析技术仍然可用。一些新兴的数据分析技术将不断涌现,并将在铁路大数据领域占据重要地位。例如,通过先进的人脸识别技术,将乘客的头像与海量的公安大数据相匹配,实现刷脸入境,在一定程度上简化了安检流程,也对逃犯进行了打击。
5.铁路大数据应用
现有的铁路数据应用大多集中在行业内,用于安全运营和相应的服务功能。事实上,铁路行业无处不在的特性决定了铁路行业的多维度应用。基于数据挖掘所获得的附加价值,使得大数据在铁路行业的应用可以得到更广泛的扩展。在旅游业中,高铁作为交通运输的重要选择,可以为旅游业提供客流数据及其特点,有利于提高行业利润。在国家层面,基于铁路大数据的区域特征基于大数据的企业竞争情报系统模型构建,可根据区域内旅客出行目的和客流量,作为区域经济发展的重要评价指标。未来交通运输将成为国民经济发展的重要组成部分,铁路大数据的应用前景将随着与不同行业的相互关联而变得更加广阔。
四、总结和政策建议
在大数据时代,数据已成为基本的战略资源。本文总结了大数据的关键技术架构,并以铁路行业为例,构建了大数据技术在铁路行业应用的概念框架。主要总结如下:
1.从数据来源、数据采集和数据服务三个方面阐述铁路大数据的内涵和特点。铁路大数据是指大数据技术在铁路行业的应用,不仅包括大数据的数据采集技术、分析技术和统计预测技术,还包括大数据思维和理念在铁路行业的应用。铁路大数据不仅具有大数据的一般特征,还具有自身行业独有的特征:泛在性、区域性和交叉性。这为更清晰地认识铁路大数据和铁路大数据的应用奠定了基础。
2.铁路大数据平台架构从铁路数据采集层、平台层和应用层提出。一是铁路大数据采集层主要包括数据采集和初步分析。通过采集铁路信息系统、传感器、生产报表等各类数据,实现铁路海量数据的整合。其次,平台层主要包括铁路大数据的处理和初步应用。通过批量计算、内存计算等计算方式,可以满足不同类型铁路数据的计算需求。最后,应用层主要包括铁路大数据的深度应用。针对各业务领域的数据分析和决策支持需求,可实现多业务数据系统,支持多层次、多用户的分析应用,包括战略决策、运营和管理。 、现场管理等。铁路大数据三层平台架构为铁路数据服务平台建设奠定基础,涵盖铁路数据基础管理、数据集成、数据共享、大数据存储与分析等功能,保证铁路数据的准确性和共享性。可有效提升大数据分析的数据质量,方便不同业务实体建立数据关联,实现多实体关联分析。
3.从铁路数据采集、处理、管理、建模和应用等方面提出铁路大数据处理流程。在数据采集阶段,主要是各种硬件设备(传感器、转发器、摄像头等)的数据采集和信息系统的数据交换;在数据处理阶段,针对具体的应用场景需要不同的处理平台或技术支持。 ,如分布式处理等。现阶段,根据数据的特点,需要提前进行预处理分析,主要包括数据筛选、数据清洗、数据标准化等;数据分析阶段(包括管理、建模和应用等)是根据应用或需求,通过设计不同的模型得到不同的分析结果。铁路大数据处理流程的建立,可以利用目前比较成熟的大数据采集、分析、应用等相关技术,解决目前铁路在数据共享、数据治理、数据分析等方面面临的挑战。广泛的应用可能.
铁路大数据基础框架研究对于铁路提高运输安全水平、实现客货精准营销、提高运输效率具有一定的参考意义。通过以上三个方面的总结,为更好地实现大数据技术在我国铁路行业的应用,本文提出以下政策建议:
1.加强顶层设计。铁路大数据的内涵和特点表明,铁路大数据是铁路技术、铁路科研、生产等全产业链跨业务、跨部门、跨区域、跨专业的有效工具。管理。铁路行业大数据发展需要多部门协同配合,加强顶层设计十分重要。这就需要从总行层面组织铁路大数据,包括制定铁路大数据目标和规划,以及重点任务(包括铁路大数据基础设施的实施、大数据应用技术的选择、铁路大数据的建设等)。大数据平台)铁路大数据安全措施(包括组织安全、财务安全、制度安全等)的分解与实施。
2.借鉴其他行业的大数据应用经验。铁路大数据平台架构与其他行业的平台架构有一定的相似性,都是在大数据关键技术架构的基础上结合自身行业特点构建的。电信行业和电力行业在我国大数据技术应用起步较早,在一些领域已经比较成熟,而这两个行业和铁路行业一样,具有天然垄断的特点,可以利用在大数据技术的应用中。借鉴。例如,借鉴电信行业数据采集和分析的经验,以及电力行业利用大数据进行智能建设,可以为铁路利用大数据技术建设智能高铁提供思路。
3.分阶段开发大数据应用。铁路是一个庞大的系统,铁路各个领域的数据处理过程都需要进行相应的研究。大数据在铁路的应用需要大量的基础设施投资,存在需求与应用衔接等问题。因此,可以分阶段、分步骤采取措施,先典型,后示范。初期可利用现有基础设施进行铁路数据的采集、处理和分析,形成一批大数据应用的典型业务试点;部分业务会形成成熟的应用;后期将根据业务需求建设大数据中心基地,实现铁路数据采集分析全覆盖,形成成熟的铁路大数据应用。
参考文献
[1] 麦肯锡。麦肯锡大数据指南[M].北京:机械工业出版社,2016.
[2]ASKITASN,ZIMMERMANN K F.GoogleEconometrics and UnemploymentForecasting[J].AppliedEconomics Quarterly,2009,55(2):107-120.
[3]MCLAREN N,SHANBHOGUER.UsingInternetSearchDataasEconomicIndicators[J].BankofEnglandQuarterlyBulletin,2011,51(2):134-140.
[4]ICENTE M R,LÓPEZ-ÉMENÉNDEZAJ,PÉREZR.ForecastingUnemploymentwithInternetSearchData:当工作破坏激增时,它是否有助于提高预测?[J]技术预测与社会变革,2015,92(92):132-139.
[5]CAVALLO A,RIGOBON R.TheBillionPriceProject: Using OnlinePrices for Measurement and Research[J].JournalofEconomicPerspective,2016,30(2):151-178.
[6]姜文杰,赖亦飞,王凯。基于百度指数的房地产价格相关性研究[J].统计与决策,2016,(2):90-93.
p>
[7]李凤起,李光明。基于搜索行为的经济指标预测方法[J].计算机工程与应用, 2017, 53(6): 215-222.
[8]ANTWEILER W,FRANK M Z.IsAllThatTalkJustNoise?InterestStock留言板的信息内容[J].TheJournalofFinance,2004,59(3):1259-1294.
[9]GILBERT E,KARAHALIOS K.Widespread WorryandtheStock Market[R].Palo Alto:AssociationfortheAdvancementofArtificialIntelligence,2010.
[10]MOAT H S,CURMEC,STANLEY H E,etal.AnticipatingStock MarketMovementwith Google and Wikipedia[J].Nonlinear PhenomenainComplexSystems:From Nanoto MacroScale,2014,(1):47-59.
[11]LIY,ARORAS,YOUTIEJ,etal.Using Web MiningtoExploreTripleHelixInfluencesonGrowthinSmallandMid-sizeFirms[J/OL].Technovation,2016,
[12]CHITTARANJAN G,BLOM J,GATICA-PEREZD.MiningLarge-scaleSmartphoneDataforPersonalityStudies[J].PersonalandUbiquitousComputing,2013,17(3):433-450.
[13]李杰。工业大数据——工业时代的产业转型与价值创造4.0[M].邱伯华等译。北京:机械工业出版社,2015.
[14] 吴立波,周扬,陈海波,杨增辉。基于智能电网大数据的工业企业大气污染排放特征研究[J].中国环境管理,2016,(4): 37-42.
[15]郭雷峰.农业大数据关键技术研究[D].北京:中国农业科学院农业信息研究所,2016.
[16]田欣,王守阳,二江,丁玉章。零售大数据与商业智能系统的设计、实现与应用[J].系统工程理论与实践, 2017, 37(5): 1282-1293.
[17] 周慧瑜.基于大数据规则挖掘的交通拥堵控制研究[J].统计与信息论坛,2017,(5): 96-101.
[18]谢康,肖景华,王倩。大数据驱动的企业用户交互研发创新[J].北京交通大学学报(社会科学版),2018,17(2):18-26.
[19] 朱洁,罗华林.大数据架构详解:从数据采集到深度学习[M].北京:电子工业出版社,2016.
[20]李华杰,石丹,马丽梅。基于大数据方法的经济研究:前沿进展与研究综述[J].经济学人,2018 年,(6): 96-104.@ >
[21]EMCE 教育服务。数据科学与大数据分析[M].曹宇等译。北京:中国工业信息出版集团,人民邮电出版社,2016.
[22] 刘军等。智能铁路大数据分析平台研究[G]//中国智能交通协会。第十一届中国智能交通年会论文集,北京:电子工业出版社,2016:105.
[23]沉瑞源.机车车载安全防护系统(6A系统)总体方案研究[J].中国铁路, 2012, (12):1-6.
[24] 王同军.我国铁路大数据应用顶层设计研究与实践[J].中国铁路, 2017, (1): 8-16.
马丽梅,深圳大学中国经济特区研究中心讲师。研究方向:产业经济学。
高志远,中国铁道科学院交通与经济研究所助理研究员。研究方向:交通经济学。
李华杰,中国社会科学院产业经济研究所。
马丽梅、石丹、高志远、李华杰。大数据技术及其产业应用:基于铁路领域的概念框架[J/OL].北京交通大学学报(社会科学版),2019(03):1-10[2019-07-25].
声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
图文推荐
2022-04-26 08:58:55
2022-04-25 12:57:38
2022-04-25 11:03:01
2022-04-24 14:02:06
2022-04-24 13:07:25
2022-04-24 12:05:21
热点排行
精彩文章
2022-04-26 10:01:54
2022-04-26 09:58:44
2022-04-25 10:05:22
2022-04-25 10:04:14
2022-04-24 10:05:11
2022-04-24 09:05:23
热门推荐