FlagBeta commited on
Commit
b855082
1 Parent(s): 69f768a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -6
README.md CHANGED
@@ -45,14 +45,11 @@ Atom-7B完全开源可商用,由Llama中文社区和AtomEcho(原子回声)
45
 
46
  ## 训练过程
47
 
48
- **模型结构**
49
 
50
- 基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持4K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
51
 
52
- **FlashAttention-2高效训练**
53
- Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时,内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一,相较于传统的注意力技术(Attention),它拥有更快速的速度以及更加优化的内存占用率。
54
-
55
- **基于NTK的自适应上下文扩展技术**
56
  - 可在不继续训练模型的情况下支持更长的上下文
57
  - 本项目中模型默认支持4K上下文,利用上述技术可扩展至18K+
58
  - 经过微调可以支持到32K+
 
45
 
46
  ## 训练过程
47
 
48
+ **模型结构**:基于当前最优秀的开源模型Llama2,使用主流Decoder-only的标准Transformer网络结构,支持4K的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
49
 
50
+ **FlashAttention-2高效训练**:Atom-7B采用了FlashAttention-2技术进行训练。由于在处理较长的输入序列时,内存消耗的问题可能会导致“内存爆炸”现象。FlashAttention-2是一种高效注意力机制的实现方式之一,相较于传统的注意力技术(Attention),它拥有更快速的速度以及更加优化的内存占用率。
51
 
52
+ **基于NTK的自适应上下文扩展技术**:
 
 
 
53
  - 可在不继续训练模型的情况下支持更长的上下文
54
  - 本项目中模型默认支持4K上下文,利用上述技术可扩展至18K+
55
  - 经过微调可以支持到32K+