当前位置：首页 » 物流行业知识 » 数据挖掘算法在物流企业风险管理与评估中的应用

数据挖掘算法在物流企业风险管理与评估中的应用

字号：T|T

文章出处：作者：人气：-发表时间：2024-05-16 10:02:00

1. 引言

随着大数据时代的到来与经济的不断发展，物流企业管理人员面对的数据呈现丰富化、多样化的趋势，这为善于使用从数据中挖掘出有用信息的物流企业带来了全新的机遇，也给粗放式管理的物流企业带来了新的挑战。如何从繁杂的数据集中发掘出有价值的信息，对每个希望在大数据时代实现风险管理与评估的物流企业都具有重要的研究意义。

2. 物流企业管理数据挖掘的特点

2.1 多学科交叉融合。

数据挖掘在物流企业风险管理与评估中既有计算机科学技术与机器学习的内容，还融合了金融学、统计学、经济学等多方面的学科理论与方法[1]。

2.2 数据来源庞杂。

物流企业获取到用于进行风险管理评估的数据，往往呈现海量性、多样性的特点。物流企业可能从多个数据库中取得大量呈现多个维度，具有多种形式的信息，例如文字、图表等，形成庞大的数据集。这一方面体现了应用数据挖掘技术的意义，另一方面也对数据的清洗和预处理提出了更高的要求。

3. 数据挖掘技术在物流企业风险管理与评估中应用的问题

3.1 原始数据难以结构化。

物流企业在进行风险管理时所参考数据往往是跨越多个层面，涉及多个维度的，这些未经过处理的脏数据中往往或多或少地存在噪点、分散、缺失值、离群值等问题[" style="padding: 0px; margin: 0px 2px; color: rgb(47, 139, 214); background-color: transparent; outline: none;">3]，无法直接对这些非结构化数据进行数据挖掘。在物流企业风险管理与评估的数据挖掘中，主要有以下几个问题：（1）数据冗余。原始数据集中不可避免地会有许多没有挖掘价值的冗余数据，如在收集员工离职记录数据时的员工编号，格式混乱的采购记录等信息。这些噪点信息非但不会有助于物流企业从过往的数据记录中挖掘出新知识，还会阻碍数据挖掘模型的开发与调试，降低模型的性能，导致数据挖掘结果的低质量甚至错误。（2）数据缺失。物流企业管理者收集到的数据经常会由于各种原因出现缺损，如某次统计未能记录所有数据项，或明显不可采信的矛盾数据。数据缺失往往会造成较大的影响，因为包含缺失值的数据样本难以被计算与划分类别，许多对输入数据集较为严格的算法也无法处理这样存在缺失的数据。而如果忽略掉存在缺失值的样本，又会丢弃掉这些样本中其他有价值的数据项中蕴含的信息，使数据集的数据量减少，得出偏颇的挖掘结果。（3）离群值。数据集中有时会出现与其他数据项距离较大的异常数据项或一个异常的小数据簇，这大多数时候是由于记录错误或统计失误造成的，但有时也蕴含着重要的风险信息。若不经处理直接输入，一定程度上会干扰某些对离群值敏感的算法的结果，还会导致物流企业管理者错过这些离群值中可能蕴含的风险信息。这些问题会降低数据的质量，导致数据挖掘模型出现运行速度慢、准确性差、难以提取足够的有用信息等一系列问题。而物流企业管理者在收集数据，形成原始数据集时，受统计标准不规范、统计误差等影响，往往总是会收集到具有这些问题的非结构化数据。这些数据难以结构化，给物流企业的数据挖掘工作带来困难。

3.2 物流企业数据挖掘模型的性能问题。

物流企业在将获取到的非结构化数据处理为结构化的数据后，便可以对这些结构化数据进行数据挖掘建模，发掘其中隐含的风险信息。此时物流企业需要面对两大问题。第一大问题是难以找到与物流企业需求完全贴合的数据挖掘算法。在预测性数据挖掘中，由于数据具有较强的动态性与实时性，一个运行时间较长的算法往往是不被容忍的。第二大问题是数据挖掘算法的开发。在信息化时代，具备一定规模的物流企业产生的风险信息资源往往较为庞大，对从这些资源中抽取出的数据集进行挖掘往往需要耗费大量的时间。如果将静态的算法套用到复杂多变的需求中，而不对其进行定制与进一步开发，是难以完成物流企业风险管理与评估的数据挖掘任务的。

3.3 存在信息安全性风险。

物流企业在应用数据挖掘技术时，往往会统合各部门的数据，建立信息化大数据管理平台。这一方面提高了物流企业的信息化程度，另一方面也成为物流企业新的风险点[4]。对于集成了物流企业所有业务数据、管理信息的大数据平台而言，一旦出现信息泄露，物流企业将会损失多个维度的大量数据，商业资源的损失更甚从前。此外，若出现不可抗力因素导致保存数据的硬件损坏，物流企业也会一次性损失大量的数据资源。这些问题对想要搭建大数据管理平台的物流企业提出了新的挑战。

4. 数据挖掘技术在物流企业风险管理与评估中应用问题的解决

4.1 注重数据的清洗及预处理。

要想对非结构化的原始数据进行数据挖掘，发现其中蕴含的物流企业风险信息，我们需要对获取到的数据进行清洗及预处理，提升数据集的质量，并使其更易于建模。针对原始数据集面临的问题，主要有以下几种解决思路。（1）数据降噪。原始数据集中常常存在由于各种测量错误、记录错误导致的噪点，为此我们要通过噪声降除算法进行处理。例如将有序的原始数据进行分箱，根据一定的规则划分出某属性的多个区间，再通过平均值平滑、边界值平滑等方法聚合各分箱中的数据，这样可以将一个区间内的一组数据用一个有代表性的数据表示，在不改变数据原有含义的基础上便于输入模型进行分析。或者基于数据集的其他特征运用聚类方法进行分簇，通过离群的孤立点或小数据簇找出噪点。在实际操作中，应使用机器挖掘与人工检验相结合的方法，由熟悉业务的管理人员或核心员工判断是否应作为普通噪点处理。（2）数据填充。为了应对原始数据集中的数据缺失，将含有缺失项的数据样本整个丢弃是最简单易行的方法。但这种方法只适用于含有数据缺失的样本较少，或含有数据缺失的样本不重要时使用，否则会造成数据集较为严重的萎缩。因此，我们还可以采取另一种思路，即用一定的方法将其填充起来。如将一些未能收集到或已丢失的数据项用特殊值填充，使其可被作为有意义的数据项处理，又可以标记该数据项具有特殊意义。或者利用统计学方法，结合该数据样本的其他数据项，采取中值填充、均值填充等方法，也可找到大致合理的值实现缺失数据项的填充。（3）离群值处理。数据集中的离群值有些是由于数据获取时的误差产生的，应进行异常值检测与处理。传统物流企业一般采用人工检测的方法，选取对业务需求较为了解的员工，人为选出离群的数据项，但这种方法难以适应大数据时代信息处理的需要，且可能产生新的错误。现代物流企业应通过设计合适的算法或建立模型的方法解决问题，基于统计学的异常值检测处理方法是最常用的离群值提取方法，这种方法将数据的基础分布假设为正态分布，结合3σ法则判断离群值，但不适用于基础分布难以描述的模型。或者基于样本两两之间的欧式距离、编辑距离在所有样本中的该距离分布，识别出离群点或离群簇，进而将其删除或进一步分析，挖掘其中可能隐藏的物流企业风险信息。

4.2 结合各物流企业数据的特点进行模型定制与扩展。

各物流企业的风险信息数据具有自己独特的特性，对模型的准确度、实时性的要求也不尽相同。如有些物流企业对人事变动较为敏感，员工离职成为损失期望值较大的风险点，这些物流企业往往希望基于以往的离职员工简历、离职原因、股市变动等多维度信息进行描述性数据挖掘，尽可能详细地从多方面描述导致员工离职的因素，帮助物流企业保护自己的人才资源。甚至如Entelo公司的“前猎头”服务，通过70多个指标分析核心人才的离职倾向，推送给购买了他们服务的物流企业家。还有的公司以期货市场波动为主要风险点，希望基于近几日的市场信息尽快完成预测性数据挖掘任务，注重模型的运行效率。由此可知，一个适合物流企业风险管理的数据挖掘模型应该是针对某一物流企业的需求定制的，且具有较强的交互性与可视化功能。

4.3 健全物流企业信息管理体系。

面对搭建信息化大数据平台时面临的新风险，物流企业需要在多方面做出应对。一方面可以成立大数据平台管理小组，由深刻理解业务且具备大数据与IT知识的管理人员领导。同时由于大数据平台统合了物流企业的所有业务数据与管理信息，如果采用物流企业外部招聘的方法获取大数据平台管理小组的成员，由于这些人员对物流企业业务与风险点不熟悉导致出现工作效率较低、错误率较高的问题，还会增加物流企业数据泄露的风险。因此，从物流企业内部选拔一批熟悉公司业务与风险，并具备一定IT知识的综合性人才进行培养，是物流企业获取大数据风险管理人才较好的办法。另一方面，物流企业应健全大数据信息管理体系，建立起一套全面、高效、安全的大数据信息管理系统与规章制度。规范大数据管理人员的权限分级管理、身份识别工作，强化数据加密存储的意识与能力，确保权限不足的人员访问相应加密数据时受到制约。

5. 结语

总而言之，数据挖掘技术可以从多个维度实现高价值数据的提取，在大数据时代有着丰富的应用与广阔的前景，对想要实现风险管理与评估的大数据时代物流企业具有重要意义。本文研究了数据挖掘技术应用的过往经验与现状，以及物流企业应用落地的问题与对策，随着数据挖掘技术的发展与物流企业应用经验的积累，数据挖掘技术在物流企业风险管理与评估中必将有更大的用武之地，为市场经济的发展提供更强的动力。

下一篇：物流整合模式下的多式联运优化策略上一篇：第三方物流的不足及优化对策探究

此文关键字：物流行业方案上海物流企业上海物流公司欧陆娱乐