【内容摘自公众号“智能体爱好者”】

人工智能领域专业名词及解释_模子_数据 科技快讯

根本观点

1. LLM(大措辞模型, Large Language Model):基于海量文本数据演习的深度学习模型,如GPT系列、BERT等,能够理解和天生自然措辞文本,能够进行繁芜对话、文本创作等任务。
拜会:大模型智能体(LLM Agent)学习条记

2. AGI(通用人工智能, Artificial General Intelligence):这是AI研究的空想目标,追求创造能像人类一样学习新技能、办理广泛问题的智能体,目前仍处于理论探索和初步实践阶段。

3. AIGC (人工智能天生内容): 利用AI技能天生的各种内容,从文本、图像到***,利用算法创造新颖、个性化的内容,如AI艺术画作或定制文章。

4. Prompt(提示词):在AI大模型中用于勾引模型天生特定类型输出的高下文信息或指令,例如,见告模型“写一篇科幻故事”。
拜会:如何调教大模型?——提示词工程实践

5. 提示工程(Prompt Engineering):设计和优化输入提示以得到所需模型输出的过程,涉及精心设计输入提示,以优化模型输出的准确性、创意或特定风格,是提高AI大模型相应质量的关键策略。
拜会:如何调教大模型?——提示词工程实践

6. 多模态(Multimodal):文本、图像、音频等都是一种模态,多模态指能够处理文本、图像、音频等多种类型数据的模型,实现对多模态信息的综合理解和剖析。

7. 推理(Inference):大模型的推理(Inference)是指利用已经演习好的模型进行实际运用,天生预测或输出结果的过程。
例如:大模型根据问题天生答案,根据文本描述天生图片等。

8. 呈现(Emergence):指的是系统中新的性子、模式或行为在更大略的组件相互浸染下自发形成的征象。

9. 对齐:AI代价对齐是指让大模型的能力和行为跟人类的代价、真实意图和伦理原则相同等,确保人类与人工智能协作过程中的安全与信赖。

10. Token:常日指的是文本或数据中的一个基本单元或符号,在自然措辞处理中,单词是最常见的 token。
例如,“你好,天下!
”会被分解为“你”、“好”、“,”、“天下”和“!
”这样的token,便于机器理解和处理。

11. 智能体(Agent):在环境中感知、思考并采纳行动的自主AI系统。
拜会:AI智能体的6种形态

12. 天下模型:指AI系统内部构建的对现实天下的抽象认知模型,用于预测、方案和决策,是实现高等人工智能的关键组成部分。

13. Scaling Law:指的是在机器学习中,模型性能随其规模增大(如参数数量、数据量)而提高的征象,是辅导模型设计和资源分配的主要原则。

14. 大模型幻觉:幻觉是指大型措辞模型天生的内容看似合理但实际上不准确或虚构的信息。
缘故原由是只管模型可以天生符合措辞构造的文本,但它们并不具备真正的理解能力,只是基于概率天生下一个词语。

15. Copilot:AI赞助工具的代名词,例如Github Copilot能够赞助程序员编程,Office Copilot能够赞助编写文档、制作PPT等。
拜会:AI智能体的6种形态

16. 具身智能:拥有物理实体的智能体(如机器人),通过与环境的互动学习温柔应,实现更靠近生物体的智能表现。
拜会:AI智能体的6种形态

机器学习与深度学习

17. 机器学习 (Machine Learning, ML): AI的子领域,让打算机能够从履历中学习并提升任务实行能力。
就像一个孩子通过不断考试测验和反馈学会骑自行车,ML模型通过剖析大量数据和调度内部规则,逐步提高其预测或决策的准确性。

18. 深度学习(Deep Learning):这是机器学习的一个分支,通过布局多层神经网络来仿照人类大脑的深层处理机制,能够自动提取数据中的繁芜特色,比如在人脸识别中区分眼睛、鼻子等细微特色,进而实现高度精确的分类或预测。

19. Transformer:这是一种革命性的神经网络架构,通过自把稳力机制有效剖析序列数据,办理了长间隔依赖问题,是大模型的核心架构。

20. 把稳力机制(Attention Mechanism):使模型能聚焦输入序列中主要部分,通过权重分配提升处理序列数据的能力,增强模型理解和天生的精确度。

21. 自把稳力机制 (Self-Attention):Transformer模型的基石,许可模型在处理序列时考虑所有位置之间的依赖,提升了序列理解和天生的效率和质量。

22. 多头把稳力(Multi-head Attention):Transformer 模型中的一个关键机制。
它通过并行打算多个把稳力机制来捕捉输入数据的不同方面或特色。
在自然措辞处理中,多头把稳力可以帮助模型同时关注句子中的多个关键单词和短语,从而更准确地理解句子的语义和构造。

23. 神经网络(Neural Network):神经网络是人工智能领域的核心观点之一,模拟人脑的构造和功能,用来办理繁芜的打算和模式识别问题。
它们由许多称为“神经元”或“节点”的大略打算单元组成,这些单元相互连接形成网络。
每个神经元对输入信息做大略运算后,将旗子暗记传给下一个神经元,层层通报,终极完成繁芜的打算任务,如图像识别或语音理解。

24. CNN(卷积神经网络, Convolutional Neural Network):特殊设计用于图像识别的“视觉侦查”。
它通过一系列“卷积层”事情,这些层能够自动检测图像中的边缘、纹理等根本特色,并逐渐构建出更繁芜的图像理解,比如识别一只猫是否在图片中,纵然它的姿态互异。

25. RNN(循环神经网络, Recurrent Neural Network):韶光序列数据的“影象大师”。
与传统神经网络不同,RNN具有循环构造,使其能够处理如措辞、股票价格等序列数据,在每个韶光点考虑之前的信息,这使得它在预测未来事宜或理解文本高下文时非常有效。

26. 是非期影象网络(LSTM, Long Short-Term Memory):RNN家族中的“马拉松选手”。
LSTM通过分外的门控机制办理了长期依赖问题,即它能记住序列中的主要信息而忽略不主要的细节,这对付处理如长句理解、翻译等须要永劫光跨度影象的任务至关主要。

27. GPT(Generative Pre-trained Transformer):作为另一款基于Transformer的模型,GPT专注于天生连贯、有创意的文本,从文章写作到故事构思,它都能根据初始提示产出令人惊叹的续篇,展示了强大的措辞天生能力。

28. BERT(Bidirectional Encoder Representations from Transformers):自然措辞处理领域的“双向翻译官”。
BERT利用Transformer架构学习文本的双向高下文信息,意味着它能同时理解一个词在句子前后的含义,从而在问答、情绪剖析等任务中表现出色。

29. 知识蒸馏(Knowledge Distillation):通过让小模型学习大模型的决策过程和输出,就像一位履历丰富的导师将其知识浓缩传授给徒弟,从而在减少打算资源的同时保持高性能。

30. 预演习 (Pre-training):在特界说务的数据上先演习模型,获取一样平常措辞知识,之后再针对详细任务微调。

31. 微调 (Fine-tuning):在预演习模型的根本上,针对特界说务进行额外演习的过程。

32. SFT(监督微调,Supervised Fine-Tuning):是指在预演习大型措辞模型之后,利用带有明确标注的数据对模型进行进一步的演习,以使其在特界说务上表现更好,比如回答问题、翻译文本、天生代码等。

33. LoRA(Low-Rank Adaptation):一种用于微调大型预演习模型的方法,其紧张目标是降落微调过程中所需的打算资源和存储本钱,同时保持模型性能。

34. 参数(Parameter):是指模型中的可演习变量,这些变量决定了模型的行为和性能。
详细来说,参数常日是神经网络中的权重和偏置,它们在演习过程中通过梯度低落等优化算法进行更新。
参数量是衡量模型规模的一个主要指标。
如Llama 7B,表示拥有70亿参数量。

35. 权重(Weights):连接神经元的权重是最常见的参数。
每个权重决定了一个输入旗子暗记对输出旗子暗记的影响程度。

36. 偏置(Biases):偏置是另一个主要的参数,用于调度神经元的激活函数,使得模型能够更好地拟合数据。

37. 超参数 (Hyperparameter):在机器学习和深度学习模型开始演习之前设置的参数值,而非在演习过程中通过优化算法学习得到的。
超参数用于掌握模型的构建和学习过程,比如决定模型的繁芜度、学习速率、正则化程度等。
由于超参数不是从演习数据中直接学习而来,选择得当的超参数值对模型的性能至关主要。

38. 天生模型(Generative Model):这类模型能够基于已知数据模式天生新的数据实例,包括文本、图像等,展现创造性输出能力,如GPT-3。

39. 扩散模型(Diffusion Model):这是一种创意十足的天生模型,想象一下将一滴墨水在水中逐步扩散开来,终极形成图案的过程,但这里的“墨水”变成了数据,如图像、声音或文本。
通过仿照物理天下中的扩散征象,它从随机噪声开始,一步步“澄清”出清晰的内容,尤其善于创造细腻的视觉艺术和繁芜的数据构造。

40. 模型压缩 (Model Compression): 通过技能如量化、剪枝减小模型体积,不捐躯太多性能的条件下提高支配效率和降落资源花费。

41. 模型量化(Model Quantization):减少模型存储和打算需求的技能,通过降落参数精度,如将32位浮点数转为8位整数,实现模型瘦身。

42. Token:常日指的是文本或数据中的一个基本单元或符号,在自然措辞处理中,单词是最常见的 token。
例如,“你好,天下!
”会被分解为“你”、“好”、“,”、“天下”和“!
”这样的token,便于机器理解和处理。

43. Tokenizer:用于将连续的文本序列(如句子或段落)分割成更小单位的工具或算法,例如单词、短语或符号,这些单元常日称为 "token"。

44. Embedding(嵌入):将文本转化数值向量的技能,便于机器处理,例如,将“猫”表示为一个100 维的向量 [0.21, -0.34, 0.65, ...],这个向量捕捉了“猫”的语义信息。

45. 词嵌入(Word Embedding):将单词表示为低维向量的方法,为每个单词授予一个多维的数值身份,犹如单词的“DNA”。
这种表示办法能让模型理解单词之间的相似性和差异,比如“国王”和“女王”在向量空间中会很靠近。

46. 句子嵌入(Sentence Embedding):将句子表示为低维向量的方法。
如果说词嵌入是单词的指纹,句子嵌入便是整句的肖像。
它将全体句子压缩成一个固定长度的向量,保留句子的紧张意义,使得模型能比较不同句子间的语义相似性。

47. 高下文嵌入(Contextual Embedding):根据高下文动态天生嵌入向量的方法。
与静态词嵌入不同,高下文嵌入能捕捉“银行”在“河岸上的银行”和“我去了银行存钱”中不同的含义,为自然措辞处理任务带来更风雅的理解层次。

48. 高下文窗口 (Context Window):措辞模型处理文本时考虑的前后词元范围,用于捕捉文本的语境信息。
较大的窗供词给更丰富语义,帮助天生连贯、准确的文本,避免歧义,改进高下文依赖处理。
例如,GPT-4 Turbo的128k Token高下文窗口让它能天生高度干系和细腻的回答。

49. Word2Vec:通过神经网络演习的词嵌入模型,将词汇转化为富含语义的向量形式,使得机器能够“感知”到词语间奇妙的关系和相似度。

50. seq2seq:Seq2Seq是一种编码器-解码器构造的神经网络模型,用于处理序列到序列的学习任务,如机器翻译、文本择要。
它首先将输入序列编码为固定长度的向量,然后解码该向量天生输出序列,可结合把稳力机制处理长序列问题。

51. 零样本学习(Zero-shot Learning):无需特定演习就可“即插即用”的提示工程技能,模型展示出令人惊异的泛化能力,能在未见过的任务上直接应用,展现了学习的广度和灵巧性。

52. 小样本学习(Few-shot Learning):在极少数示例的勾引下快速节制新技能的学习模式,它哀求模型具备高度的归纳能力和学习效率,能在少量实例中捕捉规律并运用到新情境中。

53. 自监督学习(Self-supervised Learning):利用数据本身天生监督旗子暗记进行演习的方法。

54. 无监督学习(Unsupervised Learning):无需标签数据进行模型演习的方法。

55. 有监督学习(Supervised Learning):利用标注数据进行模型演习的方法。

56. 半监督学习(Semi-supervised Learning):结合少量标注数据和大量未标注数据进行演习的方法,既利用了精确辅导的上风,又发挥了大数据的潜力,追求高效与准确的平衡。

57. 强化学习(Reinforcement Learning):通过褒奖和惩罚机制使模型学习采纳何种行动以最大化某种累积褒奖。

58. 褒奖模型(Reward Model):在机器学习和强化学习中,是用于评估智能体行为的模型。
它定义了智能体在给定环境中的行为是否良好,通过给出正面或负面的褒奖旗子暗记来辅导智能体学习和优化其策略,从而实现特定目标或任务。

59. RLHF(带有人类反馈的强化学习,Reinforcement Learning with Human Feedback):这种方法结合了强化学习和人类反馈,以演习智能体更好地完成任务。
通过利用人类的评价和辅导,RLHF 可以提升智能体在繁芜环境中的表现和决策能力。

60. 迁移学习(Transfer Learning):将模型在一个任务上的知识运用到另一个任务。

61. 自动机器学习 (AutoML):自动化机器学习流程,减少人工参与,提高效率。

62. 元学习(Meta-learning):教机器如何高效学习的学习方法,通过优化学习过程本身,使模型能够更快地适应新任务,增强学习的灵巧性和通用性。

63. Q学习(Q-Learning):强化学习中的经典算法,通过估算每一步辇儿为的代价(Q值),辅导智能体做出最佳选择,稳扎稳打,迈向终极目标。

64. 联邦学习(Federated Learning):是一种分布式机器学习技能,旨在通过在多个设备或数据中央上进行模型演习,而无需将数据从客户端发送到中央做事器。
在联邦学习中,每个设备或数据中央本地掩护其数据,并通过通信协议共享模型更新,而非原始数据。

65. GAN(天生对抗网络, Generative Adversarial Network):由两部分组成,天生器试图创建真实数据的假造样本,判别器则试图区分真伪,二者对抗演习,推动双方性能提升,终极实现对真实数据的完美模拟和创新天生。

66. DBN(深度信念网络, Deep Belief Network):一种天生模型,基于概率图模型。

67. 变分自编码器(Variational Autoencoder, VAE):是一种深度学习模型,它结合了自编码器(Autoencoder)和概率论中的变分推断(Variational Inference)方法,用于高效地学习数据的低维表示,也称为潜在变量(latent variables)。
自编码器原来是用来进行数据的降维和特色学习的,而VAE在此根本上更进一步,旨在学习一个连续、潜在的概率分布,从而不仅能够进行数据压缩,还能天生新的数据样本。

68. MoE(Mixture of Experts):一种在深度学习中利用的模型架构,旨在提高模型的性能和效率。
MoE模型通过将不同的子模型(称为“专家”)组合在一起,每个专家专门处理特定的输入特色或任务,从而实现更好的泛化能力和打算效率。

69. 降维(Dimensionality Reduction):减少数据特色数量的方法,如PCA、t-SNE。

70. 特色工程(Feature Engineering):创建和选择特色以提高模型性能的过程,是提升机器学习效果的关键步骤,为模型搭建坚实的根本。

71. 数据标注:是指为机器学习和人工智能模型准备演习数据时的过程,即为数据集中的样本添加标签、标注或注释,以便模型能够理解和学习数据的含义和特色。

72. 数据预处理(Data Preprocessing):是指在对数据进行紧张剖析或建模之前,对其进行洗濯、整理、转换等一系列操作的过程,目的是提升数据质量,使其更适宜后续的数据剖析、数据挖掘或机器学习任务。

73. 数据洗濯(Data Cleaning):是对数据集进行详细检讨和改动的过程,旨在提升数据的质量和可靠性。
这一过程专注于识别并纠正数据中的缺点、不完全信息、不一致性及冗余征象。

74. 合成数据(Synthetic Data):指通过打算机算法和模型天生的仿照数据,而不是通过实际不雅观测或实验网络的真实数据。
这种数据可以用于演习、测试和验证机器学习模型,尤其在数据网络困难、本钱高或隐私保护哀求高的情形下显得尤为主要。

75. 交叉验证(Cross-validation):是一种评估机器学习模型泛化能力的统计技能。
它将数据集分为多个子集(如K折),依次将每个子集作为验证集,别的子集作为演习集,重复进行演习和验证,终极综合所有验证结果以评估模型的性能。

76. 过拟合(Overfitting):模型在演习数据上表现好,但在新数据上表现差的征象。
模型过于“熟记硬背”演习数据,导致在新数据面前显得“书呆子气”,无法灵巧应对。

77. 欠拟合(Underfitting):模型在演习数据上和新数据上都表现不佳的征象。
模型未能充分“消化”演习数据,无论是已知还是未知数据面前,都显得“力不从心”。

78. 模型泛化(generalization):指的是模型在面对新的、以前未见过的数据时的表现能力。
衡量模型是否具有“举一反三”的聪慧,即在遇见未曾谋面的数据时,依旧能够准确预测或适应的能力。

79. 梯度低落(Gradient Descent):一种优化算法,用于最小化函数,通过迭代地调度参数以减少偏差。
在机器学习中,梯度低落用于演习模型,通过打算丢失函数相对付模型参数的梯度,沿着梯度的反方向更新参数,从而逐步逼近最优解。

80. 丢失函数(Loss Function):机器学习和深度学习模型评估预测偏差的函数。
它量化了模型预测值与实际值之间的差距,帮助优化算法(如梯度低落)调度模型参数以最小化这个差距。
常见的丢失函数包括均方偏差(MSE)、交叉熵丢失等。

81. 激活函数(Activation Function):神经网络中的关键组件,它引入非线性,使神经网络能够学习和表示繁芜的模式。
常见的激活函数包括 ReLU(改动线性单元)、Sigmoid 和 Tanh。
激活函数帮助模型在各层之间通报旗子暗记,并对输入数据进行转换,决定是否以及如何激活特定神经元。

82. 练丹:在机器学习领域,指演习大规模的神经网络模型,特殊是预演习措辞模型,如GPT、BERT等。
这个过程须要大量的数据、算力和技巧,就像炼制灵丹一样。
炼丹重点描述模型调优的过程。
这个过程每每须要大量的考试测验和履历,包括选择得当的模型构造、优化算法、丢失函数、学习率等,就像炼丹一样须要风雅的操作和耐心的等待。

83. 蒸馏:模型蒸馏是一种模型压缩技能,它的目标是将一个大型、繁芜的模型(被称为西席模型)的知识转移到一个小型、大略的模型(被称为学生模型)中。

84. 挖矿:在机器学习中,"挖矿"常日指的是数据挖掘,即从大量的、未经由处理的数据中提取有用信息和知识的过程。
这个过程包括数据洗濯、数据转换、数据剖析、模式识别等步骤。
在深度学习中,"挖矿"也可以指硬件的利用,比如利用GPU进行模型的演习,这个过程由于其高能耗和高打算需求,被比喻为"挖矿"。
从大量的无标注数据中挖掘出有用的信息或知识,例如构建知识图谱、天生对话数据等。

NLP

85. 自然措辞处理 (NLP):打算机科学领域,研究如何让打算机理解、阐明和天生人类措辞。

86. 语义理解 (Semantic Understanding):模型理解文本意义,而不仅仅是字面意思,涉及高下文、隐喻等。

87. 知识创造(Knowledge Discovery):是指从数据中提取出新的、有用的、以前未知的知识或模式的过程。

88. 知识图谱(Knowledge Graph):一个构造化的知识表示形式,用于存储和展示实体(如人、地点、物品)及其相互关系。
它通过节点(表示实体)和边(表示实体间的关系)构建出一个网络,使得信息可以以一种直不雅观且易于检索的办法组织和存储。

89. 模式识别(Pattern Recognition):是指通过剖析数据或旗子暗记中的重复或有序构造,识别和分类出特定模式或规律的过程。
这些模式可以是在不同工具或征象中共享的可重复的特色、属性或行为。

90. 文本天生 (Text Generation):根据给定的提示或高下文天生新的、连贯的文本内容。

91. 机器翻译 (Machine Translation):将文本从一种措辞自动翻译成另一种措辞的技能。

92. 情绪剖析 (Sentiment Analysis):判断文本中表达的情绪方向,如正面、负面或中性。

93. 问答系统 (Q&A):自动回答用户提出的问题,须要理解问题并从数据中检索或天生答案。

94. 文本择要 (Text Summarization):将长文本压缩成保留关键信息的短文本。

95. 对话系统 (Dialogue Systems):能够与用户进行自然措辞对话的AI系统,运用于谈天机器人等。

96. 谈天机器人(Chatbot):是一种人工智能运用程序,能够与用户进行自然措辞互换,如ChatGPT等。

97. text2code:指一类技能或工具,能够将自然措辞描述的任务或者问题直接转换成打算机可实行的代码。
用户只需用自然措辞表述他们想要实现的功能或办理的问题,Text2Code系统就会自动剖析语句含义,天生相应的编程代码,从而极大地降落了编程的门槛,提高了开拓效率。
这类技能常日涉及深度学习、自然措辞理解和编程措辞理解等多个领域的知识。

98. text2sql:Text2SQL是一种自然措辞处理技能,它能将普通自然措辞文本自动转换为构造化的SQL查询语句,使得用户无须理解SQL语法即可对数据库进行查询。
这项技能广泛运用于智能客服、数据剖析和BI工具中,通过理解用户提问,自动天生对应数据库查询指令,获取准确信息。

多模态

99. 打算机视觉 (CV):使机器可以“看”并理解图像或***内容。

100. Text-to-Video:文本到***的转换技能,根据文本描述天生***片段。

101. Text-to-Image:将文本描述转换为图像的天生技能。
这项技能利用深度学习模型,根据输入的自然措辞描述天生对应的图像。

102. Stable Diffusion:可以看作是图像创作的“邪术滤镜”。
它基于扩散模型的事理,专注于天生超高清的图像,就像一位技艺博识的画家,用数字化的“画笔”在虚拟画布上精心雕琢每一个像素,确保每幅作品都既风雅又逼真。

103. ControlNet:用于勾引AI绘画过程中的特定元素或风格的赞助网络。
在AI绘画的天下里,ControlNet如同一位辅导老师,它赞助AI理解并遵照特定的视觉风格或元素布局,比如确保画面中的建筑物具有特定的几何形状或色彩搭配,使得终极的艺术作品不仅富有创意,还精准符合创作者的意图。

104. DALL-E:这个名字灵感来源于艺术家萨尔瓦多·达利和皮克斯动画《机器人总动员》中的机器人瓦力,是OpenAI推出的创意工具。
只需输入一句话描述,比如“月光下的紫罗兰色鲸鱼”,DALL-E就能神奇地将其转化为一幅幅生动的图像,展现了措辞到视觉艺术的直接转换。

105. Sora:OpenAI发布的人工智能文生视比年夜模型。

106. Deepfake: 利用AI更换***中人物面部假造***的技能。

107. 语音识别(Speech Recognition):是一种人机交互技能,指的是打算机系统自动识别和理解说话者语音内容的能力。

108. TTS:(从文本到语音,Text To Speech):这是一种技能,能够让机器或打算机将书面笔墨转换整天然的人类语音输出。
TTS技能广泛运用于各种场景,比如语音助手、导航设备、有声读物、措辞学习软件、视障人士赞助工具等,以供应更加自然和直不雅观的交互办法。

109. CLIP(Contrastive Language-Image Pre-training):由OpenAI提出的一种模型架构,能够理解图像与文本之间的联系,实现跨模态的检索和天生。

大模型智能体

110. 智能体(Agent):在环境中感知、思考并采纳行动的自主AI系统。

111. 多智能体(Multi-agent):多个智能体协作联合办理繁芜问题的系统。

112. RAG(检索增加天生,Retrieval-Augmented Generation):领悟检索与天生的稠浊策略,增强AI内容创作的丰富度与准确性。

113. COT(思维链,Chain of Thought):通过逻辑链条深化模型推理,仿照人类思考路径,提升决策的合理性和深度。
拜会:

114. TOT(思维树,Tree of Thought):采取思维树状构造组织信息处理,分层次细化剖析,促进繁芜决策的高效解析。
拜会:

115. Function Calling:AI模型的外部能力拓展,直接调用函数或API,实现更广泛的实用功能和繁芜操作。

116. Reflection:智能体的自我核阅与调节能力,使其能监控自身状态,应时调度策略,优化决策过程。

117. ReAct(Reason and Act):是指一种结合了“推理”(Reasoning)和“行动”(Acting)的AI架构。
它是人工智能领域中一种设计智能体的方法论,在ReAct框架下,智能体首先根据当前情境进行推理(Reason),决定一个行动方案,然后实行该行动(Action),接着根据行动的结果再次进行推理,形成一个循环迭代的过程。

框架&工具

118. TensorFlow: 谷歌开源的机器学习框架,为AI开拓者供应强大的工具箱,助力模型构建与算法优化。

119. PyTorch: 来自Meta(原Facebook)的机器学习神器,为深度学习研究与运用供应灵巧而强大的工具。

120. Scikit-learn: Python中最受欢迎的机器学习库之一,简化数据挖掘与剖析任务,广受数据科学家喜好。

121. langchain:是一个用于开拓基于大模型运用程序的框架。

122. Ollama:一个可以运行Llama大模型的开源推理框架。

123. LlamaIndex:LlamaIndex是一个连接大模型与外部数据的工具,它通过构建索引和供应查询接口,使得大模型能够学习和利用私有或者特定领域的数据。

124. 向量数据库:专为高维向量数据设计的存储系统,常用于搜索、推举系统及AI中的相似性匹配,提高数据检索效率。

125. huggingface:一家专注于自然措辞处理(NLP)的人工智能公司,以其开源的Transformers库有名。
该库供应了广泛的预演习模型和工具,支持多种任务,如文本分类、文本天生、翻译、问答等。

大模型产品

126. Gemma:Gemma是谷歌研发的AI大模型。

127. Claude:美国人工智能初创公司Anthropic发布的大型措辞模型家族。

128. Llama:Meta(原Facebook)公司开拓的开源大措辞模型。

其它

129. GPU:图形处理器,当代打算的加速器,尤其在深度学习和高并行打算任务中发挥着至关主要的浸染。

130. CUDA:NVIDIA开拓的并行打算平台和编程模型,许可开拓者利用GPU的强大性能,加速科学打算、图形处理等运用。