提示词工程 Prompt 是一种在自然语言处理(NLP)中用于引导语言模型生成特定类型文本的技术。它的基本原理是通过向语言模型提供一个包含任务相关信息的输入文本片段(即 Prompt),利用语言模型在预训练阶段学到的语言知识和模式,引导模型生成符合预期的输出。例如,对于一个文本生成任务,Prompt 可以是一个问题、一个主 题描述或者一个部分完成的句子,模型会根据这个 Prompt 来续写或生成完整的文本。 2025-11-09 spring框架 > SpringAI #AI #LLM #提示词工程
大模型介绍 1 大模型介绍1.1 什么是大模型 大模型,全称「大语言模型」,英文「Large Language Model」,缩写 「LLM」。是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本 数据进行训练,来学习服务人类语言理解和生成的能力。eg: 一个人从小学到高中毕 业这整个的学习阶段 — 大模型的训练 。 介绍常见的大模型产品: 国家 对话产品 大 2025-11-01 spring框架 > SpringAI #AI #LLM
6-实战案例 案例一: MR实战之小文件合并(自定义inputFormat)1 准备 需求 无论hdfs还是MapReduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 测试数据 分析 小文件的优化无非以下几种方式: a) 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS b) 在业务处理之前,在HDFS上使用MapReduce程序对 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
5-Hadoop数据压缩 1 概述这是MapReduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担) 123451) MapReduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积2) 压缩特性运用得当能提高性能,但运用不当也可能降低性能3) 基本原则: -运算密集型的job,少 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
4-MapReduce高级 1 shuffle阶段1.1 概述MapReduce会确保每个reducer的输入都是按键排序的。从map方法输出数据开始、到作为输入数据传给reduce方法的过程称为shuffle。在此,我们将学习shuffle是如何工作的,因为它有助于我们理解工作机制(如果需要优化MapReduce程序)。shuffle属于不断被优化和改进的代码库的一部分,因此会随着版本的不同,细节上可能会发生变量。不管怎样 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
3-MapReduce基础 1 MapReduce运行流程概述一个完整的MapReduce程序在分布式运行时有三类实例进程: MRAppMaster: 负责整个程序的过程调度及状态协调 MapTask: 负责Map阶段的整个数据处理流程 ReduceTask: 负责Reduce阶段的整个数据处理流程 当一个作业提交后(mr程序启动),大概流程如下: 一个mr程序启动的时候,会先启动一个进程Applica 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
2-Hadoop序列化机制 1 为什么要序列化 **序列化: **序列化是指将具有结构化的内存对象转为0和1组成的字节序列,以便进行网络传输或持久存储到设备的过程。 反序列化: 反序列化指的是将字节序列转为内存中具有结构化的对象的过程。 在基于类的编程语言中,我们说需要的数据都会被封装成对象,在内存中进行管理。可是有些时候,这样的对象,我们想直接存储到磁盘中,或者想进行网络传输,那么需要怎么做呢?需要 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
1-MapReduce入门 1 MapReduce是什么2004年,谷歌发表了一篇名为《MapReduce》的论文,主要介绍了如何在分布式的存储系统上对数据进行高效率的计算。2005年,Nutch团队使用Java语言实现了这个技术,并命名为MapReduce。时至今日,MapReduce是Apache Hadoop的核心模块之一,是运行在HDFS上的分布式运算程序的编程框架,用于大规模数据集(大于1TB)的并行运算。其中的概 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
YARN 1 简介1.1 MapReduce 1.x第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。 1.1.1 MapReduce 1.x的角色 Cli 2024-06-02 Hadoop > YARN #Hadoop #YARN
7-高级操作 1 磁盘监测在 HDFS 上所有的文件都是以 Block 的形式存在的,如果在 HDFS 上存储了海量的数据文件,就会对应有海量的 Block 的存在,而这些 Block 难免会因为种种原因而存在损坏的情况。有什么办法可以去发现哪些块出现了问题呢?可以使用 fsck 命令。 1.1 fsck的选项 选项 描述 -move 移动损坏的文件到 /lost+found 目录下 -dele 2024-06-02 Hadoop > HDFS #Hadoop #HDFS