0%

1. 引言

本篇博客是关于如何搭建 hexo 博客的完整教程,目的是为了帮助完全没有编程基础的小白能够成功的搭建一个自己的学习笔记博客网站。起因是因为个人有利用网站整理学习笔记的习惯,因此经常被问到如何搭建类似的网站,每次都苦恼于没有合适的文字资料分享给别人,这次跟几个小伙伴,打算出一期系统性的搭建各种常用的博客网站的教程,包括学习笔记博客和学术简历博客等,目前还在整理筹备中,尽情期待。

本篇博客主要为本人负责部分,基于 hexo ,从零开始搭建学习笔记博客网站,参考本人的博客: 独孤诗人的学习驿站

Read more »

10. 大模型之 Adaptation

使用语言模型(例如在上下文学习中)通过仅给出提示,我们已经能够执行一些任务。然而,提示方法并不适用于全部的下游任务,如自然语言推理 NLI、问题回答 QA、将网络表格转换为文本、解析电子健康记录 EHR 等。

Read more »

9. 新的模型架构

通过前文的学习,我们知道神经预言模型的核心借口是一个将 token 序列映射到上下文嵌入的编码器: \[ \text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}] \stackrel{\phi}{\Rightarrow} \left[\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1}, \binom{0}{-1} \right]. \]

Read more »

7. 模型训练

上一章讨论了大语言模型 Transformer 的模型结构,本章节将讨论如何训练大语言模型,主要包含 目标函数优化算法 两部分。

Read more »

6. 模型架构

6.1 大模型之模型概括

语言模型可以被看做是一个黑箱,当前大规模语言模型的能力在于给定一个基于自身需求的prompt 就可以生成符合需求的结果。

Read more »

4. 大模型的数据

在之前的内容,我们讨论了大型语言模型的行为(能力和损害),本节将开始讨论模型的构建。我们知道,任何机器学习方法的起点都是训练数据。

Read more »

3. 大模型的有害性

3.1 Introduction

本次内容主要探讨大型语言模型的有害性(危害),常见的几种危害包括:

  • 性能差异
  • 社会偏见和刻板印象
  • 有害信息
  • 虚假信息
Read more »

2. 大预言模型的能力

在本次课程中,我们将深入探讨 GPT-3 大预言模型的能力。我们的研究主要是基于 GPT-3论文 中的基准测试,这些测试包括:
  • 标准的自然语言处理(NLP)基准测试,例如问题回答;
  • 一些特殊的一次性演示,例如在句子中使用新词。
Read more »

1. Introduction

本笔记是 DataWhale 2023年 09简单学点大模型 项目的学习笔记。原项目地址:Clike here

1.1 语言模型 (Language Model, LM)

1.1.1 定义

语言模型是对令牌序列 token 的概率分布。假设有一个令牌集的词汇表 \(V\)。语言模型 \(p\) 为每个令牌序列 \(x_{1},...,x_{L} \in V\)分配一个概率(0和1之间):

Read more »

0. Preface

Most folks are as happy as they make up their minds to be. — Abraham Lincoln

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第三篇—— 多层感知机。

本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。

Read more »