DP-Crowd Counting

Q

  1. About perspective normalization, the closer the people is to the camera, the bigger he is. So the weight should be small, which is consistent to the paper. While in paper, the closer people is, the hotter the color, meaning bigger weight of people close to camera.

  2. down-sample the training pics by $\frac{1}{4}$ before training, it wouldn’t change the density?

    delta function to model the image with $N$ heads?

CNN based

All kinds of papers and code

2D Gaussian Kernel

Screen Shot 2018-07-05 at 10.47.30 AM

  1. The $\sigma$ determines the width of the Gaussian kernel.

[2008-AB Chan]

[chapter3.1 | 3.3 understanding ]

Feature Extraction

指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。

特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。

Segment Features

Perimeter

[perimeter finding] :

definition : total number of pixels on the segment perimeter, computed with morphological operators.

Perimeter Edge Orientation

definition : for pixels in the edge, applying a set of orientation gaussian filtering to the pixel and maximum output is considered as the orientation of that pixel, where orientation histagram is is a histogram of a set of integer numbers in the range [0…5].

Edge Features

不同图像灰度不同,边界处一般会有明显的边缘,利用此特征可以分割图像。需要说明的是:边缘和物体间的边界并不等同,边缘指的是图像中像素的值有突变的地方,而物体间的边界指的是现实场景中的存在于物体之间的边界。

在实际的图像分割中,往往只用到一阶和二阶导数,虽然,原理上,可以用更高阶的导数,但是,因为噪声的影响,在纯粹二阶的导数操作中就会出现对噪声的敏感现象,三阶以上的导数信息往往失去了应用价值。二阶导数还可以说明灰度突变的类型。在有些情况下,如灰度变化均匀的图像,只利用一阶导数可能找不到边界,此时二阶导数就能提供很有用的信息。二阶导数对噪声也比较敏感,解决的方法是先对图像进行平滑滤波,消除部分噪声,再进行边缘检测。不过,利用二阶导数信息的算法是基于过零检测的,因此得到的边缘点数比较少,有利于后继的处理和识别工作。

Minkowski Dimension

Texture Features

纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理具有三大标志:

  • 某种局部序列性不断重复;
  • 非随机排列;
  • 纹理区域内大致为均匀的统一体;

GLCM For Texture Abstracting

定义:灰度共生矩阵是图像中相距为D的两个灰度像素同时出现的联合概率分布。

意义:共生矩阵方法用条件概率来反映文理,是相邻像素的灰度相关性的表现。

假设灰度集合$\{0,1,2,3\}$, 那么共生矩阵大小是$4\times 4$, 对于$\forall i,j\in{0,1,2,3} $ 每个矩阵entry值是$f(i,j|d,\theta)$ , $d$和$\theta$给定。[实现方法] :

在计算得到共生矩阵之后,往往不是直接应用计算的灰度共生矩阵,而是在此基础上计算纹理特征量,我们经常用反差、能量、熵、相关性等特征量来表示纹理特征。

能量:是灰度共生矩阵各元素值的平方和,是对图像纹理的灰度变化稳定程度的度量,反应了图像灰度分布均匀程度和纹理粗细度。能量值大表明当前纹理是一种规则变化较为稳定的纹理。

熵:是图像包含信息量的随机性度量。当共生矩阵中所有值均相等或者像素值表现出最大的随机性时,熵最大;因此熵值表明了图像灰度分布的复杂程度,熵值越大,图像越复杂。

相关性:也称为同质性,用来度量图像的灰度级在行或列方向上的相似程度,因此值的大小反应了局部灰度相关性,值越大,相关性也越大。

Screen Shot 2018-07-08 at 12.17.26 AM

[2016-Yingying Zhang]

[PaperUsding1]

Multi-Papers

[PaperWeekly]

Knowledge

  1. Downsampling an image

    Screen Shot 2018-07-09 at 1.01.17 AM

  2. FPS 每秒传输帧数(Frames Per Second)

    FPS是图像领域中的定义,是指画面每秒传输帧数,通俗来讲就是指动画或视频的画面数, 电影以每秒24张画面的速度播放,也就是一秒钟内在屏幕上连续投射出24张静止画面,那么我们就说电影是24fps.

  3. A dynamic texture

    A dynamic texture (DT) is the temporal extension of 2D texture, which is considered as a spatio-temporal generative model for video, which represents video sequences as observations from a linear dynamical system.

Definition : For a frame at time $t$, we have two variables $y_t$ and $x_t$, which encode the frame appearance component and the evolution of the video over time respectively.

Screen Shot 2018-07-08 at 10.01.38 AM

  1. Pixel

    图像是由的小方格即所谓的像素(pixel)组成的,这些小方块都有一个明确的位置和被分配的色彩数值,像素是整个图像中不可分割的单位或者是元素。e.g. 图片分辨率为72,即每英寸像素为72,1英寸等于2.54厘米,那么通过换算可以得出每厘米等于28像素(72 / 2.54);又如15x15厘米长度的图片,等于420*420像素的长度。

  2. Grey-Scale Value

    把白色与黑色之间按对数关系分成若干级,称为“灰度等级”。范围一般从0到255,白色为255,黑色为0,故黑白图片也称灰度图像。

    Screen Shot 2018-07-08 at 9.38.43 AM

  3. Gaussian Filtering (高斯滤波)

    ref1 ref2

    高斯滤波在图像处理概念下,将图像频域处理和时域处理相联系,作为低通滤波器使用,可以将低频能量(比如噪声)滤去,起到图像平滑作用。

    高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值用。高斯平滑滤波器对于抑制服从正态分布的噪声非常有效。

  4. Orientation Gaussian Filtering

    Screen Shot 2018-07-07 at 4.15.43 PM

    Screen Shot 2018-07-07 at 11.08.24 PM

    Screen Shot 2018-07-07 at 11.08.31 PM

    Screen Shot 2018-07-07 at 11.08.38 PM

  1. image modeling

  2. Multivariate Gaussian Distributions

    Blog1 YouTube

    $n$元正态分布中的协方差矩阵$Cov(X)$:

    Screen Shot 2018-07-08 at 11.50.02 AM

    For one variate gaussian distribution, the variance is $Var(x)=E[(x-E(x))(x-E(x))]$, so for the multivariate, the variacne is $Var(x_1,x_2)=E[(x_1-E(x_1))(x_2-E(x_2))]$

    20171218134527847

Reference

[2010-Victor Lempitsky] Learning To Count Objects in Images

[2011-Mikel Rodriguez] Density-aware person detection and tracking in crowds

[2014-Carlos Arteta] Interactive Object Counting

[2018-Di Kang] Beyond Counting: Comparisons of Density Maps for Crowd Analysis Tasks - Counting, Detection, and Tracking

[2008-AB Chan] Privacy Preserving Crowd Monitoring: Counting People without People Models or Tracking

[2015- Cong Zhang] Cross-scene Crowd Counting via Deep Convolutional Neural Networks

[2016-Yingying Zhang] Single-image crowd counting via multi-column convolutional neural network

[2015-Chuan Wang] Deep People Counting in Extremely Dense Crowds

[2017-Deepak Babu Sam] Switching Convolutional Neural Network for Crowd Counting

[2016-Daniel O˜noro-Rubio ] Towards perspective-free object counting with deep learning