Zrj0926

VQ-VAE

前段时间看到一篇将visual tokens离散化（当成一门外语）送入LLM以此统一语言和视觉模态训练的文章，其对visual tokenizer的实现同VQ-VAE相似，故将VQ-VAE的视觉离散化方法记录在这里视觉令牌离散化的方法三个组件： encoder 编码器，负责将图片压缩成低维的特征（ze(x)z_e(x)ze(x)） decoder 解码器，负责将离散化的特征（zq(x)

2025-03-18

#计算机视觉 #生成模型

VLM综述

综述 Vision-Language Models for Vision Tasks: A Survey（综述）新范式：预训练-微调-预测需要任务特化的微调新范式：视觉语言模型预训练（大量图像文本对）和zero-shot预测（直接运用到下游的视觉识别任务）预训练时设计一个视觉-语言目标，使模型能学习到视觉语言的相关性（CLIP使用对比方法拉进图像文本对）两个研究方向：迁移学习：

2025-03-17

#计算机视觉 #VLM

从VAE到DDPM

VAE（变分自编码器）从AE（自编码器）开始 AE的作用是什么？是为了得到样本的特征zzz。为了实现这个目标，我们需要两个部件：encoder（编码器）和decoder（解码器）。编码器的作用是将图像降维以得到低维的特征zzz，解码器的作用是将特征解码重建原图，以计算重建损失L=∥x−x^∥22L=\Vert x-\hat{x}\Vert^2_2L=∥x−x^∥22更新神经网络参数，确保编

2025-01-06

#计算机视觉 #生成模型

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quic

2025-01-05

#测试