AI简介 |
1.人工智能的提出(20世纪50年代) 时代背景:20世纪40年代计算机科学兴起,“计算机之父”艾伦・图灵提出“图灵机”概念,奠定计算理论基础;1943年沃伦・麦卡洛克和沃尔特・皮茨发表关于神经网络的论文,提出模拟人类神经元的数学模型,揭示通过数学手段模仿人类大脑的可能性。到了50年代,计算机技术进一步发展,为人工智能的研究提供了物质基础。 技术特点:主要基于符号主义,通过规则和逻辑推理来实现智能,尝试用数学和逻辑的方法让机器模拟人类智能行为。 技术突破:1956年,约翰・麦卡锡在达特茅斯学院组织学术会议,正式提出“人工智能”术语,制定了人工智能研究的初步框架,标志着人工智能作为一个独立学科诞生。1957年,弗兰克・罗森布拉特发明感知器,这是早期的人工神经网络模型,能学习简单的模式识别任务。 2.专家系统(20世纪60 - 90年代) 时代背景:此前人工智能的通用方法无法解决大型实际问题,人们意识到需要结合特定领域知识来构建智能系统。 技术特点:是一类具有专门知识和经验的计算机智能程序系统,利用存储在计算机内某一特定领域人类专家的知识,解决通常需人类专家才能解决的现实问题,可看作“知识库”和“推理机”的结合。 技术突破:20世纪60年代初,人工智能学者爱德华・费根鲍姆等教授在1965年研制出世界上第一个专家系统Dendral。20世纪70年代,专家系统趋于成熟,观点被广泛接受,出现如医疗领域的MYCIN等一批卓有成效的系统,MYCIN首次使用知识库概念并采用似然推理技术。20世纪80年代,专家系统引入概率模型对原因及其可能影响进行推理,到80年代中期遍布各个专业领域,且从基于规则的系统逐渐向面向对象的系统转变,基于框架的专家系统开始占据主要位置。20世纪90年代,研究转向与知识工程、模糊技术、实时操作技术、神经网络技术和数据库技术等相结合的专家系统。 3.机器学习(20世纪80年代至今) 时代背景:研究人员认识到单纯依靠符号主义的规则和逻辑推理不能完全实现人工智能潜力,开始关注让机器通过经验和数据自主学习。同时,随着互联网的普及,各设备产生海量数据,数据成为重要资产,数据驱动的决策与分析成为企业竞争关键;计算机硬件不断升级,多核处理器、GPU等提升计算能力,云计算提供便捷计算平台,这些都为机器学习发展助力。 技术特点:作为人工智能的分支,机器学习使计算机系统能利用数据和算法自动学习、改进性能。它通过数据“学习”模式,生成模型并基于模式进行预测或决策,有别于传统编程中程序员定义明确规则和逻辑让计算机执行任务的方式。机器学习算法有监督学习、无监督学习、半监督学习、强化学习、元学习等;模型按构建原理分为几何模型(如支持向量机、K均值聚类)、概率模型(如朴素贝叶斯模型、隐马尔可夫模型)和逻辑模型(如决策树、人工神经网络)。 技术突破:1986年,杰弗里・辛顿等人提出反向传播算法,使多层神经网络的训练成为可能,为深度学习奠定基础。1989年,美国贝尔实验室的杨立昆教授提出卷积神经网络(CNN)计算模型,并推导出基于反向传播算法的高效训练方法,成功用于英文手写体识别,CNN后来成为深度学习领域应用广泛的模型之一。此后机器学习发展迅猛,众多算法涌现,如监督学习中的线性回归(用于预测连续变量)、逻辑回归(用于预测分类变量)、支持向量机(用于分类和回归任务)、K -近邻算法(可用于回归和分类,通过测量特征距离并迭代,依据训练集相似特征分类或取平均值预测)、决策树、随机森林;无监督学习中的K -均值聚类、主成分分析等,在推荐系统、图像识别、语音识别、金融分析等诸多领域广泛应用。 4.深度学习(2006年至今) 时代背景:计算机硬件性能提升,特别是图形处理器(GPU)的发展,为深度学习提供强大计算力;互联网产生海量数据,满足深度学习对大量数据训练的需求。 技术特点:基于对人工神经网络的研究,深度学习模型包含多个隐藏层,能自动从大量数据中学习复杂模式。在图像和语音识别等方面性能卓越,减少对人工特征工程的依赖。 技术突破:2006年,杰弗里・辛顿提出深度学习概念,通过构建多层神经网络,让计算机自动从大量数据中学习特征和模式。深度学习在图像识别领域成绩斐然,卷积神经网络(CNN)在图像分类、目标检测等任务上超越传统方法;循环神经网络(RNN)及其变体长短期记忆网络(LSTM)在处理序列数据,如自然语言处理方面表现出色。 5.强化学习(20世纪80年代至今) 时代背景:在机器学习发展进程中,面临智能体在动态环境中如何通过与环境交互,以最大化累积奖励为目标进行决策的问题,强化学习应运而生。 技术特点:智能体与环境交互,依据环境反馈的奖励信号学习最优行为策略。智能体的每个动作影响环境状态并获得相应奖励,目标是学习到使长期累积奖励最大化的策略。 技术突破:20世纪80年代以来,强化学习理论逐步发展完善,Q学习算法等经典算法相继提出。2013年,深度强化学习出现,结合深度学习强大的特征学习能力和强化学习的决策能力,在复杂任务中成果显著,如DeepMind公司的AlphaGo通过深度强化学习战胜围棋世界冠军,震惊世界,在机器人控制、自动驾驶等领域也展开广泛应用探索。 6.生成式人工智能(21世纪10年代中期至今) 时代背景:深度学习等人工智能技术发展成熟,拥有大量数据和强大计算能力,人们对创造新内容的需求不断增加,促使生成式人工智能发展。 技术特点:能够基于给定的数据和算法生成全新的内容,如文本、图像、音频等,模型通过学习数据中的模式和特征,具备生成具有一定创造性和多样性内容的能力。 技术突破:2017年Google团队推出Transformer架构,解决了序列建模中的梯度消失问题;为大规模预训练模型(如GPT、BERT)奠定基础;支持高效处理文本、图像、语音等多模态数据。2018年OpenAI基于Transformer解码器推出GPT-1,GPT系列成为代表性大模型。2022年底,OpenAI推出ChatGPT,这是一款模仿自然语言的应用,借助神经网络架构,通过大量数据和语料库进行机器学习,能够模拟普通人的对话和写作。2024年7月3日,世界知识产权组织发布《生成式人工智能专利态势报告》,报告显示,2014年至2023年,中国生成式AI专利申请量位居全球第一。这一系列成果标志着生成式人工智能在内容生成方面取得了重大突破,应用领域不断拓展,影响力持续扩大。
AI相关术语 AI,也就是人工智能(Artificial Intelligence),是指让机器(尤其是计算机系统)表现出智能的技术。是一门研究、设计和应用智能机器和软件的科学领域,旨在创建能模拟人类智能行为的系统,包括学习、推理、规划、语言理解和感知。
AGI,也就是通用人工智能(Artificial General Intelligence),能够在广泛的认知任务上表现得与人类一样好,甚至更好。它与狭义的人工智能不同,狭义的人工智能是为特定的任务而设计的,而AGI则更适应通用任务,是一种强人工智能。
GenAI,也就是生成式人工智能(Generative Artificial Intelligence),也简称为GAI。是AI的细分领域。人工智能技术的快速发展催生了生成式人工智能,它指利用大规模神经网络模型,根据训练数据对文本、图像、视频、音频等进行自动生成的人工智能技术。GenAI的代表应用包括ChatGPT这样的对话系统、DALL-E等图像生成模型,以及Stable Diffusion、AudioLM等其他模态的生成模型。大语言模型(Large Language Model, LLM)就是一种GenAI。
GPT,也就是Generative Pre-trained Transformer(生成式预训练变换器),是一种大语言模型,也是知名的GenAI。这是一种先进的人工智能技术,用于理解和生成自然语言文本。GPT是由OpenAI 开发的,属于深度学习模型的一种,特别是一种大型的变换器模型。它通过分析大量的文本数据学习语言模式,从而能够生成连贯、相关且通常令人信服的文本。
ChatGPT,是OpenAI基于GPT(生成式预训练变换器)模型开发的一种特定应用。它专门设计用于生成连贯、自然的对话式文本。通过对大量对话数据的学习,ChatGPT 能够参与流畅的对话,回答问题、提供信息、撰写文本等。ChatGPT的版本也在不断升级,从最初的GPT-3版本,到更先进的GPT-4版本。
AIGC,就是Artificial Intelligence-Generated Content(人工智能生成内容),指的是GenAI生成的内容。,是一种利用人工智能技术自动创建内容的方法,常应用于文本生成、图/视频创作、音乐/语音合成等。AIGC 通常基于复杂的算法和大量数据,使得机器能够学习并模仿人类创作内容的方式,从而创作出新的、独特的作品或信息。
OpenAI ,是一个专注于人工智能研究和开发的知名组织。它成立于 2015 年,由一群高影响力的技术专家和企业家(如Elon Musk、Sam Altman)共同创立。OpenAI 的使命是推动人工智能(AI)的友好发展,确保AI的好处能被全人类共享。它开发了多种先进的AI模型和应用,其中最著名的包括 GPT系列模型。OpenAI 致力于负责任和道德地发展AI技术,并且在其研究和应用中强调安全性和可解释性。
大语言模型,就是Large Language Model(简称LLM)是一种基于深度学习的人工智能技术,也是自然语言处理的核心研究内容之一。其核心是使用大规模数据集对模型进行训练,从而使其能够生成自然语言文本或理解语言文本的含义。这些模型通过层叠的神经网络结构,学习并模拟人类语言的复杂规律,达到接近人类水平的文本生成能力。大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。相比传统的自然语言处理(Netural Language Processing, NLP)模型,大语言模型能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力。
大模型 大模型在人工智能领域通常指的是大型的机器学习模型,特别是那些包含大量参数的深度学习模型。这些模型因其庞大的规模和复杂性而得名。典型的例子包括各种类型的神经网络模型,如变换器(Transformer)、卷积神经网络(CNN)和循环神经网络(RNN)。 按照输入数据类型,大模型可分为—— 语言大模型:指在自然语言处理(NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行训练,以学习自然语言的各种语法、语义和语境规则。如GPT系列、Bard (Google) 、文心一言 (百度)。 视觉大模型:指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像外理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如: VIT系列(Google) 、文心UFO、华为盘古CV、INTERN (商汤)。 多模态大模型:指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。如DALL-E(OpenAl)、悟空画画(华为) 、玄韬大模型(玄武云)。 按照应用领域,大模型可分为—— 通用大模型L0: 是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三"的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”。 行业大模型L1: 是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家”。 玄武云前不久发布的消费行业多模态大模型——玄韬大模型已率先上线陈列指挥官、拜访总结助手等AIGC应用,未来还将涵盖门店拜访、智慧车销管理、门店画像、全知助手、订单预测、商业决策、智慧拓店等AIGC应用,将覆盖超过100个大消费终端具体业务场景。 垂直大模型L2: 是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。
|