和风网标志

NLP 中的 10 个关键数据挖掘挑战及其解决方案

日期:

即使我们从大数据中提取重要信息的能力不断提高,科学界仍然面临着构成重大数据挖掘挑战的障碍。 在本文中,我们将讨论我们在现代数据挖掘中面临的 10 个关键问题及其可能的解决方案。

1. 异构数据

数据可能质量低下、掺假和不完整。 这就是为什么,除了从不同的地方收集数据的复杂性之外 数据仓库,异构数据类型(HDT)是主要的数据挖掘挑战之一。 这主要是因为大数据来自不同的来源,可能是自动积累的,也可能是手动的,并且可以受到各种处理程序的影响。

学习数据架构的基础知识

数据架构为每一个成功的数据策略奠定了基础——通过我们的在线培训计划探索要点。

这通常会导致高冗余和伪造数据的程度。 一个非常常见的例子是客户调查,人们可能不会提交或错误提交某些信息,例如年龄、出生日期或电子邮件地址。

解决方案: 这个问题的解决方案有两个方面。 一,我们采用传统方法,按照经典的同质数据挖掘过程单独处理每个 HDT,然后将结果拼接在一起。 或者,我们在预处理阶段结合 HDT,然后进行数据挖掘过程,将它们视为单个实体。 当然,这比第一个选项更简单。 

其次,我们也从业务角度处理解决方案,营销和开发团队确保尽可能多地收集准确的数据。 例如,企业必须确保调查问题更能代表目标,并且数据入口点(例如零售业)具有验证数据的方法,例如电子邮件地址。 这样,当我们 分析情绪 通过情感挖掘,将得出更准确的结果。 

2. 分散数据

最突出的数据挖掘挑战之一是从众多计算环境中的平台收集数据。 在单个服务器上存储大量数据是不可行的,这就是数据存储在本地服务器上的原因。 这是大多数大型组织的情况。 事实上,这是我们自己在为一家国际医疗保健提供商收集数据以进行情绪分析时所面临的问题。 

分散的数据也可能意味着数据存储在不同的来源中,例如 CRM 工具或个人计算机上的本地文件。 当组织可能想要分析来自多个来源(例如 Hubspot、.csv 文件和 Oracle 数据库)的数据时,通常会出现这种情况。 公司也在寻找更多非传统的方法来弥补内部数据可能无法通过收集数据来填补的空白 从外部来源.

解决方案: 我们需要创建数据挖掘算法的分布式版本,这样我们就不必像现在这样将所有数据都放到一个集中的存储库中。 我们还需要正确的协议和语言来映射这些分散的数据。 目前,这可以在很大程度上实现 元数据

可以使用 XML 文件以一种表示形式存储元数据,以便可以挖掘异构数据库。 预测标记语言 (PMML) 可以帮助不同数据存储站点之间的模型交换,从而支持互操作性,进而支持分布式数据挖掘。 

3. 数据伦理

数据挖掘挑战在很大程度上涉及数据收集中的道德问题。 这与数据隐私不同。 例如,收集数据的原始来源可能没有明确许可,即使是在社交媒体渠道等公共平台上或 公众评论 在在线消费者评论论坛上。

例如,电子商务网站可能会在不通知消费者的情况下访问消费者的位置、地址、年龄、购买偏好等个人信息,并将其用于趋势分析。 问题变成了是否可以挖掘个人数据,即使是为了构建商业智能这一看似简单的目的。

解决方案: 这是一个治理问题,比其他任何事情都重要,也是道德 AI 环境中突出的数据挖掘挑战之一。 就像网站通知用户接受或拒绝 cookie,或要求获得运行弹出窗口的权限一样,企业也必须告知消费者他们可以将其数据用于什么目的。 这是企业需要解决的责任,以提高其客户的透明度。

4.数据隐私

数据隐私是数据收集中出现的一个严重问题,尤其是在社交媒体聆听和分析方面。 由于 Cambridge Analytica/Facebook 惨败,社交媒体组织更受关注,最终导致前者申请破产,后者因违反数据隐私向美国政府支付 5 亿美元罚款。 

由于这种持续的审查,包括 Facebook、Snapchat 和 Instagram 在内的许多社交媒体平台都收紧了其数据隐私法规。 事实证明,这给社会情绪分析带来了数据挖掘挑战。

解决方案: 这再次属于数据挖掘伦理原则的范围。 如上所述的社交媒体平台,甚至是 Twitter 或亚马逊评论等其他社交媒体平台,都需要对其数据隐私政策保持透明。 解决此问题的另一个重要方法是规范第三方应用程序,这些应用程序可以通过直接访问用户的数字设备或间接通过用户的社交关系访问数据。 第三,数据科学家在请求访问社交媒体应用程序和平台时需要遵循适当的协议,例如抖音,这些应用程序和平台具有非常严格的数据保护规则,并且难以访问以进行数据挖掘。 任何时候组织都不应使用反向渠道来访问此类受限信息。

5。 数据安全

当涉及到数据挖掘挑战时,数据安全性是一个大问题。 这不仅是数据是否来自道德来源的问题,而且当您将其用于数据挖掘和处理时,它是否在您的服务器上受到保护。 通过密码数据泄露、数据篡改、弱加密、数据不可见以及缺乏跨端点控制等造成的数据盗窃是数据安全面临的主要威胁。 不仅是行业, 政府越来越严格 以及数据保护法。

解决方案: 在收集数据进行分析时,数据挖掘公司需要为客户提供在公共/c 之间进行选择的选项
嘈杂的环境和在客户防火墙后面安全的本地平台。 在组织方面,企业需要大规模管理数据隐私,而不是寻找零散的解决方案。 他们需要投资 支持人工智能的智能软件 它可以跟踪敏感数据并自动对其进行分类,以满足数据隐私法规。 

您需要对所有敏感数据以及个人信息和索引身份进行持续的风险分析。 这样做可以使数据清单更加连贯,并使数据访问变得透明,以便您可以监控未经授权的活动。 由于设置了严格的隐私授权,因此使用自动化数据保护和安全合规性变得更加容易。 

6. 数据复杂度

例如,当挖掘数据以分析客户体验 (CX) 用例的情绪时,它通常采用非常异构的数据类型混合形式,包括空间数据、用户生成的视频、社交媒体视频、图像、模因、表情符号、自然语言文本等。 

大多数提供 CX 分析的工具都无法分析所有这些不同类型的数据,因为这些算法不是为了从这些数据类型中提取信息而开发的。 在这种情况下,他们会忽略任何未经编程的数据,例如表情符号或视频,并将它们视为特殊字符。 这是主要的数据挖掘挑战之一,尤其是在社交聆听分析中。

解决方案: 如果平台能够以与从文本数据中相同的方式识别和提取非文本内容中的信息,则可以解决此问题。 通过应用 视频内容分析,这些数据可以被挖掘和处理,用于安全和监控、情绪分析、医疗保健服务、市场研究和许多其他领域。

7。 方法论

您用于数据挖掘和处理的方法非常重要,因为它会影响数据挖掘平台的执行方式。 有时这会成为个人选择的问题,因为数据科学家通常会在他们认为正确的语言(无论是 R、Golang 还是 Python)方面存在分歧,以获得完美的数据挖掘结果。 当不同的业务情况出现时,例如当公司需要扩展并且必须严重依赖虚拟化环境时,这在数据挖掘挑战中的表现方式。 

解决方案: 这里的解决方案不在于单独查看每种计算语言,而在于更全面地了解您的机器学习平台的用途。 如果您正在查看为网站构建的模型,Python 效果很好。 如果您正在查看数据和安全性,出于显而易见的原因,应该首选 Java。 同样,如果您正在寻找速度、可扩展性和基于云的环境,Go 为您提供了这种能力。 

8. 数据上下文

上下文信息确保数据挖掘更有效,结果更准确。 然而,缺乏背景知识是阻碍语义理解的许多常见数据挖掘挑战之一。

解决方案: 元数据可以在很大程度上帮助解决这个问题。 因为它提供有关其他数据的信息,所以元数据有助于数据提取和数据清理。 也正是因为它提供的总结,我们在当前详细数据和高度总结的数据之间获得了更多的上下文信息。 例如,它允许您搜索 TB 的数据,以告诉您特定歌曲的歌手是谁,或研究论文的作者是谁。 这就是组织需要关注其元数据质量的原因。

9.数据可视化

自然语言处理 (NLP) 输出本身的实际可视化中存在大量数据挖掘挑战。 即使要克服数据挖掘中的所有上述问题,仍然难以以简化的方式表达复杂的结果。 重要的是要考虑到大多数最终用户不是来自技术社区的事实,这是许多数据可视化工具没有达到目标的主要原因。

解决方案: 如果我们确保以易于理解的图表、图形、颜色代码或其他图形表示形式提供输出数据,则可以实现成功的数据可视化。 词云是一个很好的例子,说明了复杂算法如何以有效的方式展示查询结果,营销部门的非技术用户可以遵循。

10.响应时间

最后但并非最不重要的是预测模型的响应时间问题。 精度和准确性在业务环境中至关重要,但也需要高效的响应时间。 想想证券交易所:在这样一个瞬间股票交易决策严重依赖于几乎实时的市场分析和预测的行业中,响应时间变得绝对至关重要。

解决方案: 在规划机器学习解决方案时,数据科学家需要决定此类算法的优缺点,同时牢记正在为其构建解决方案的业务应用程序。 一些算法很容易构建——例如,非参数分类方法,例如常用于分类和回归的 k 近邻 (K-NN) 算法。 然而,它们在预测目标变量时并不省时。 

另一方面,其他算法,如涉及决策树 (DT) 的非参数监督学习方法,开发起来很耗时,但几乎可以编码到任何应用程序中。 这就是为什么远见和适当的计划非常重要。

结论

数据挖掘以改变企业和行业运作方式的方式帮助我们理解大数据。 它帮助我们在理解生物信息学、数值天气预报、银行和金融机构的欺诈保护以及让我们在视频流媒体频道上选择最喜欢的电影方面取得了长足的进步。 我们必须继续开发数据挖掘挑战的解决方案,以便我们构建更高效的人工智能和机器学习解决方案。

现货图片

最新情报

现货图片