The Data Science Task Force: Mission AI

Posted by Gloomymoon on 2021-02-28

人工智能 Aritficial Intelligence(AI)

人工智能(AI)包括建模和模拟等多种被视为智能的人类能力的方法。关键主题包括感知、表征、学习、规划以及利用知识和证据进行推理。

为构建AI系统而建立的概念和方法在数据科学中颇有助益。例如,数据科学家创建并使用知识图谱中如语义本体等概念;计算机视觉算法可用于分析图像数据;语音和自然语言处理算法可应用于分析语音或文本数据。机器学习算法被如此广泛地应用于从数据中提取模式,精通AI的学生将能够在数据科学项目中应用这些技术。

反过来说,数据科学方法也被广泛应用在AI系统中。如果数据科学专业的学生计划将他们的工作应用于AI,那么他们应该对AI系统及其工作方式有所了解。

由于AI在数据科学中的核心地位,与图像、文本和机器学习相关的AI能力在其他领域也被视为重点内容。在数据获取、管理和治理知识领域中负责处理图像和文本;在数据挖掘知识领域中也被广泛引用。这个知识领域涉及知识表示、推理和规划。

范围能力
  • 人工智能的主要分支领域。
  • 表征和推理。
  • 问题的规划和解决。
  • 伦理方面的考量。
  • 描述人工智能的主要领域,以及可能应用人工智能方法的应用场景。
  • 用逻辑形式表示信息并应用相关的推理方法。
  • 用概率形式表示信息并应用相关的推理方法。
  • 具备对人工智能系统道德考量意识,采取有效机制减轻问题。
子领域
AI-基础知识–T1,T2
AI-知识表示和推理(基于逻辑模型)–T2,E
AI-知识表示和推理(基于概率模型)–T1,T2,E
AI-规划和搜索策略-T2,E

AI-基础知识

鉴于人工智能方法在知识表示和推理方面的实用性,数据科学家应该了解它们的范围和历史,对现寸工作成果有一个良好的认知,以便在遇到各种问题时能够知道从何处寻找可性的解决方案。

知识

T1:

  • AI的发展历史
  • AI的本质(它是什么,它有什么用),与认知进行对比
  • AI的主要分支领域:知识表示、逻辑和概率推论、计划、感知、自然语言处理、学习、机器人技术(包括物理和虚拟的)

技能

T1:

  • 描述AI的主要分支知识,以便在数据科学中需要时识别有用的概念和方法。

T2:

  • 阐明什么是AI系统,它们可以通过AI算法收集和使用数据,也可以收集和产生数据,供数据科学家使用。
  • 描述机器人(物理或虚拟)、代理和多代理系统是如何收集和使用数据,从而嵌入、提供或实施人工智能算法。
  • 描述AI系统收集和产生的数据对数据科学应用的作用。

品行

T1:

  • 认识到AI不是一个新的领域,而是一个有着悠久而丰富历史的领域。
    T2:
  • 了解AI主要关注领域,以及他们所解决的问题类型,在需要时知道去哪里寻找方法,避免制造轮子。

AI-知识表示和推理(基于逻辑模型)

对于某些类型的问题,形式逻辑方案可以用来表示信息,执行推理。数据科学家应该了解这些方法,并且知道如何将它们应用于具体问题上。

知识

T2:

  • 谓词逻辑和实用案例
  • 自动推理:前向链、后向链。
  • 大型系统中的推理集成(例如IBM的Watson)。
  • 本体、知识图谱(例如protege、ConceptNet、YAGO、UMLS)。
    E:
  • 自动推理:解析、定理证明。
  • 自动推理语言。

技能

T2:

  • 用谓词逻辑表达自然语言的语句。
  • 用自然语言表达谓词逻辑语句。
  • 举例说明谓词逻辑的用途和限制。
  • 举例说明有效的自动推理算法和/或系统。
  • 描述基于逻辑框架的自动推理技术,如前向和后向链。
  • 举例说明大规模数据驱动系统中继承推理系统的例子(例如Watson)。

E:

  • 描述一种自动定理证明的具体方法。
  • 描述什么是本体,并举例说明在现有的技术下,哪些情况下可以使用本体(如问题回答),以及如何使用本体(如消除歧义)。
  • 描述本体是如何构建的。
  • 实现一个解决中等规模推理问题的算法。

品行

T2:

  • 领会基于逻辑的知识表达的好处和局限性。
  • 意识到形式逻辑和基于逻辑的算法背后丰富的历史,以便在具体应用中利用。

AI-知识表示和推理(基于概率模型)

概率模型是许多数据科学技术的核心,数据科学家掌握基于概率模型的多种数据建模方法。

知识

T1:

  • 基本概念:随机变量、概率定理、独立性、条件概率、边际概率。
  • 因果模型。

T2:

  • 贝叶斯网络。
  • 马尔可夫决策过程(MDPs)。

E:

  • 强化学习。
  • 概率逻辑模型(例如马尔可夫逻辑网络)。

技能

T1:

  • 证明概率推理的必要性。
  • 掌握基本概念和定义,包括随机变量、独立性等。
  • 掌握概率的主要定理。
  • 使用基本概念和定理来建立一个简单的模型并解决问题。
  • 描述什么是因果模型,以及如何使用它们。

T2:

  • 说明什么是贝叶斯网络,举一个小型或中型例子。
  • 说明贝叶斯网络在那些情况下是有效的(例如诊断问题)。
  • 演示如何利用贝叶斯网络进行推理,理解精准推理在大多数情况下是哪一实现的,说明能有效的推理方法的例子(例如置信度传播)。
  • 识别贝叶斯网络所隐含的独立性关系。
  • 说明什么是马尔可夫决策过程,并给出一个小型或中型的例子。
  • 说明马尔可夫决策过程在哪些情况下是有效的(如优化或控制问题)。
  • 展示如何利用马尔可夫决策过程进行推理。

E:

  • 为一个小型或中型问题构建贝叶斯网络。
  • 为一个小型或中型问题实现学习过的贝叶斯网络算法。
  • 说明马尔可夫决策过程的参数是如何习得的,举出可用于此的算法例子。
  • 在一个适当难度的问题上应用强化学习算法。
  • 举出概率逻辑模型的例子,如马尔可夫逻辑模型,指出他们适用的应用场景。
  • 为一个小型或中型问题实现概率逻辑模型。

品行

T1:

  • 理解基于概率的知识表示方法的优处和局限性,以及对其进行推理的方法。

AI-计划和搜索策略

除了对现实世界进行表示和推理以外,还需要规划一个逐步骤的解决方案来实施人工智能方法。数据科学家需要了解这些技术来应用数据驱动的方法提高性能,或从系统中收集数据。这里包括的几种方法(如广度和深度优先搜索)也包含在关于编程、数据结构和算法的知识领域中。

知识

T2:

  • 问题解决方案的状态空间表示。
  • 状态空间的广度和深度优先搜索。
  • 状态空间的启发式搜索(如A*算法)。

E:

  • 随机搜索算法(例如遗传算法、模拟退火)。
  • 约束满足问题和方法。

技能

T2:

  • 解释如何将一个问题的解等价为可行解空间中的一个状态(例如对变量的赋值)。
  • 对于给定的问题,将其构建为一个多为状态空间中的搜索问题。
  • 解释广度和深度优先搜索是如何遍历一个以图为模型的状态空间。
  • 解释启发式搜索如何加快状态空间的搜索速度。

E:

  • 实现盲目搜索算法从一个状态空间中遍历解的算法(代表该状态空间的图是在搜索过程中形成,事先并不提供输入)。
  • 为一个小型问题设计一个启发式搜索算法。
  • 对一个小型或中型问题实现非盲目式搜索算法。
  • 为一个小型或中型问题实现随机搜索算法。
  • 解释随机搜索算法如何解决搜索空间的问题(如避免局部最优),解释随机搜索算法如何在有解的空间中解决局部搜索问题。
  • 解释一个问题的解决方案如何涉及对特定变量的具体约束记忆他们之间的关系,描述阐明这些约束的方法。
  • 实现各种搜索算法。
  • 将一个小规模问题构建为一个约束满足问题。
  • 为一个小型或中型问题实现粤苏满足算法。

品行

T2:

  • 正确认识在一个状态空间中可能存在多个可行的解,能够掌握找到这些解的多种算法。根据外部条件,如对最优性要求、时间限制等,需要采用不同的解决方案或算法。
  • 平衡算法、启发式方法和问题解决方案的最优性之间的关系。