B体育人工智能(Artificial Intelligence),英文缩写为AIB体育。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它试图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器
人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能B体育,但能像人那样的思考,甚至超过人的智能。
iii. 轻量级指的是业务与数据之间的一种关系体现很轻,简单说:获取数据集的方式很快,多样化
强人工智能Artificial General Intelligence(AGI): 人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。
超人工智能Artificial Super Intelligence(ASI): 知名人工智能思想家Nick Bostrom把超级智能定义为”在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能“。
目标值: x----y 误差趋近于零的时候就是目标值,误差最小-数据输出
训练 指的是是:一种学习行为----转化为:“经验”-----通过经验采集的数据才是训练数据!
也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据
算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合,目标数据和 预测数据差距太大!
基于大数据Hadoop的人工智能—不建议(大数据直接与AI结合)—成本高
基于Spark MLlib处理数据解析数据集—处理数据集的速度高于hedoop
个性化推荐:个性化指的是根据各种因素来改变用户体验和呈现给用户内容B体育,这些因素可能包含用户的行为数据和外部因素;推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。
际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。
用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
直接对条件概率p(yx)进行建模,常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
对联合分布概率p(x,y)进行建模,常见生成式模型有:隐马尔可夫模型HMMB体育、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的差异性,寻找的是分类面
与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中B体育,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
考虑如何利用少量的’标注样本’和大量的’未标注样本’进行训练和分类的问题,是有监督学习和无监督学习的结合
SSL的成立依赖于模型假设,主要分为三大类:平滑假设、聚类假设、流行假设;
SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监
通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率
kNN K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别
NaiveBayes 贝叶斯分类模型;该模型比较适合属性相关性比较小的时候,如果属性相关性比较大的时候,决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的)
SVM 支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中。
K-Means 聚类算法,功能是将n个对象根据属性特征分为k个分割(kn); 属于无监督学习