WO1993002526A1 - Method for compressing digital image sequences - Google Patents

Method for compressing digital image sequences Download PDF

Info

Publication number
WO1993002526A1
WO1993002526A1 PCT/CH1992/000148 CH9200148W WO9302526A1 WO 1993002526 A1 WO1993002526 A1 WO 1993002526A1 CH 9200148 W CH9200148 W CH 9200148W WO 9302526 A1 WO9302526 A1 WO 9302526A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
bands
data
transformation
images
Prior art date
Application number
PCT/CH1992/000148
Other languages
French (fr)
Inventor
Murat Kunt
Frédéric DUFAUX
Iole Moccagatta
Touradj Ebrahimi
George Campbell
Alexander Geurtz
Original Assignee
Laboratoire De Traitement Des Signaux
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laboratoire De Traitement Des Signaux filed Critical Laboratoire De Traitement Des Signaux
Publication of WO1993002526A1 publication Critical patent/WO1993002526A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • image sequences are becoming increasingly important in modern imaging applications, such as high definition television (HDTV), teleconferencing, multi-media applications, medical imaging, robotics , satellite imagery, interactive video and entertainment.
  • HDTV high definition television
  • teleconferencing multi-media applications
  • medical imaging robotics
  • satellite imagery interactive video and entertainment.
  • the aim of the present invention is to provide a method of compressing digital images intended for video-digital transmissions or for digital storage on media such as compact disks or optical disks, so as to obtain average transmission rates. of the order of 1 to 10 Mb / s with higher quality compared to known systems, such as for example H261 CCITT or MPEG mentioned above, and with a relatively simple implementation.
  • the invention relates to a method for compressing sequences of digital images comprising a step of decom ⁇ position the images by transformation into sub-bands, as defined in claim 1. It also relates to a device for setting implementation of the method, as defined in claim 12, as well as a filter bank for implementing the method, as defined in claim 13, and a filter bank intended for rapid multiresolution transformation for compression digital images, as defined in claim 15.
  • the method of the invention makes it possible in particular to take into account the redundancy not only inside a sub-band, but also the dependence between the sub-bands, which leads to a higher efficiency than that of the methods. known.
  • the method of the invention has the advantage of being very simple for its implementation. It uses very little memory while being very efficient. Furthermore, the precision of the motion vectors is only limited by the arithmetic precision of the elementary operations of the space-time constraint.
  • the structure of the synthesis filters much less complex than that of the analysis filters makes it possible to simplify the decoding operation, which is vital to lower the cost of the decoder.
  • the proposed filters can be implemented effectively in terms of polyphase components thanks to the structures of the QMF (quadrature mirror filter) type contained in the synthesis analysis parts.
  • the structure of the filter bank allows a VLSI implementation with a clock frequency half as low as that proposed so far, the filters being obtained by optimization of a localization function both in image space and in the 'frequency space.
  • the multi-resolution organization of the data is taken into account by three different coding techniques, each giving rise to specific performances adapted to the properties of the respective data classes.
  • the average frequencies are coded by a vector quantization (VQ) with a pyramidal structure.
  • VQ vector quantization
  • a pyramidal structure eliminates linear and non-linear spatial correlation, as well as linear and non-linear correlation across sub-bands.
  • this pyramid structure consists of a low resolution image in one level of the pyramid and detail images in the other levels. The resulting pyramid transformation provides information at different levels of resolution.
  • a pseudo-random scanning of the high-frequency sub-bands minimizes the visual distortion due to the overflow of the buffer memory by distributing it over the entire surface of the image. Pseudo-random is understood here in a sense analogous to that of the randomize function of a computer.
  • the spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation.
  • This process can be used to encode among others the ISO / CCIR 601 and CCITT / CIF formats.
  • For the data to be processed which are in the CCIR 601 format one proceeds beforehand in the coder to a conversion from interlaced to progressive (figure 1), then in the decoder to a conversion from progressive to interlaced (figure 2), in order to restore the original format.
  • These conversions are based on an interpolation with motion compensation. They are not necessary for progressive scan formats.
  • the use of the Gabor decomposition was chosen on the one hand because the Gabor functions, which are Gaussian functions modulated by complex exponentials, have an optimal location in the joint spatial / spatial frequency domain.
  • the majority of the receptive field profiles of the mammalian visual system can be modeled by this type of function.
  • the partitioning of the spatial frequency domain into octave bands is motivated by natural image statistics and also by the sensitivity of the human visual system.
  • Gabor functions do not form an orthogonal basis. Consequently, there is not a priori a direct method to compute the transformation, as one can do it in an orthogonal case by simple scalar products.
  • a method has already been proposed for carrying out the Gabor pyramid transformation. This technique is based on the criterion of adjustment by the method of least squares.
  • the solution to the problem of the method of least squares shows that the coefficients of weighting can be extracted by simple multiplication between a matrix and a vector of data. If the set of Gabor functions is chosen independently of the image, the multiplicative matrix is constant. The reconstructed data are obtained by another multiplication between the matrix of Gabor functions and the vector of the weighting coefficients.
  • a parallel implementation of the transformation is therefore carried out to carry out the transformation in real time.
  • the chrominance is undersampled in the transform domain by eliminating the higher frequency components from the pyramid ( Figure 4). This process does not deteriorate the visual quality of color images.
  • the spatial continuous component (low resolution image, see Figure 3) is coded using modulation by coded pulses (PCM).
  • PCM coded pulses
  • the average levels of the pyramid are coded using a hierarchical vector quantization (VQ) with a tree structure, as represented in FIG. 4.
  • VQ vector quantization
  • the highest spatial frequencies are selected adaptively and scalarly quantized (SQ / RL).
  • the position information and the amplitude of the coefficients are coded separately.
  • the adaptive quantization step and a variable length entropy encoder are controlled using a feedback strategy based on the occupation of the buffer memory.
  • a differential inter-image technique is used. Using two previous images, the current image is predicted by a motion compensated extrapolation, and only the prediction error is coded and transmitted.
  • the motion vectors are estimated hierarchically (pairing of blocks or spatio-temporal constraint). These same vectors are also used when converting from progressive to interlaced.
  • an intra-image technique is applied in a fixed interval to completely update all the coefficients. This mechanism is also restarted after each scene change.
  • Figure 1 is a block diagram of a coding device operating according to the method of the invention.
  • Figure 2 is a block diagram of a decoding device operating according to the method of the invention.
  • Figure 3 illustrates the three different data regions according to the three coding strategies.
  • FIG. 4 illustrates the implementation of the vectors of vector quantization.
  • Figure 5 is a block diagram of motion compensation.
  • FIG. 6 shows an example of impulse response of a filter from the analysis filter bank.
  • FIG. 7 shows an example of impulse response of a filter from the synthesis filter bank.
  • FIG. 8 gives a representation in the frequency domain of the filters of the analysis filter bank.
  • FIG. 9 gives a representation in the frequency domain of the filters of the bank of synthesis filters.
  • the system can be used to encode the two formats ISO / CCIR 601 (interlaced) and CCITT / CIF (progressive).
  • the ISO / CCIR 601 format consists of 288 by 720 interlaced images at a frequency of 50 fields per second for 625-line systems.
  • the CCITT / CIF format consists of 288 by 360 progressive images at a frequency of 25 images per second.
  • a first block ( Figures 1) performs the conversion from interlaced to progressive. This first conversion is based on a spatial interpolation with motion compensation.
  • a final block on decoding ( Figure 2) allows you to find the initial format by converting from progressive to interlaced. This second conversion uses time interpolation with motion compensation.
  • the missing lines are obtained by using a space-time interpolation with compensation for movement between the two neighboring lines existing on either side of the missing line. This makes it possible to go from an image frequency of 25 images per second to an image frequency of 50 progressive images per second.
  • a time compensated motion interpolation is used.
  • the movement between two consecutive images is estimated by a hierarchical technique. These same motion vectors are also used for motion compensation prediction, and they are obviously only calculated once.
  • Subband decomposition and transform coding as a subset of subband decomposition are very popular for data compression, thanks to the good quality of the results obtained for a rate of compression given by comparison with other techniques.
  • the transformation used in the present system is a Gabor pyramid transformation with multi-resolution.
  • multiresolution techniques are very effective for image analysis and coding; as for example SG Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Representation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, and Rosenfeld, A., "Multirésolution Image Processing and Analysis” , Springer-Verlag, 1984, Berlin, Germany.
  • the choice of the Gabor functions for the basis of the transformation is motivated by the fact that these functions have an optimal localization in the joint spatial / spatial frequency domain.
  • the Gabor functions are the only ones to reach the lower limit of Heisenberg uncertainty in the space of signals. This principle states that the product of the extent of a signal in the spatial domain with its extent in the frequency domain is always greater than or equal to a constant. The minimum is reached precisely, when the signal is a Gabor function.
  • the majority of receptive field profiles of the mammalian visual system can be modeled by this type of function.
  • the power spectrum of natural images decreases exponentially as the spatial frequency increases.
  • the synthesis filters are designed to contain only coefficients which are a sum or a difference of two powers of two at most.
  • Several methods have been proposed to approximate a given filter, for example by a method based on min-max or least squares criteria by linear or quadratic programming (see the article by YC Lim and SR Parker, "FIR Filter Design over a discrete powers-of-two coefficient space ", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), and by a method based on simulated annealing (see the article by N. Benvenuto, M. Marchesi and A.
  • the coefficients of these filters are programmed in a special chip according to a poly-phase structure.
  • Demultiplexing is achieved by simple addressing of the memory.
  • the coefficients of the transformed image are coded according to three different methods depending on the spatial frequency to which they belong. These coding classes are shown in Figure 3.
  • PCM Pulse code modulation
  • the spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation. This technique is relatively robust in the presence of noise.
  • VQ vector quantization
  • SQ scalar quantization
  • a relevant parameter is the size of the vectors, in that the larger they are, the better the exploitation of the correlation between coefficients.
  • the chrominance coefficients are also included in the vectors, along with those of luminance ( Figure 4). Based on experimental results described in the recommendation "Encoding parameters for digital television for studios"
  • the highest level of the pyramid is scanned using a Peano-Hilbert scan in sub-blocks of the image in a pseudo-random order. This scan converts two-dimensional image subbands into a one-dimensional number chain. This chain is then quantified using standard scalar quantization (SQ). The result is a string of numbers with only a small number of bits. These numbers are then compared to a threshold and set to zero if they are below the threshold. The vast majority of the coefficients will be smaller than the threshold. This chain is then divided into two chains, one being a sequence of non-zero coefficients and the other being a binary chain where the value represents the position of a non-zero coefficient and a zero represents a zero coefficient.
  • SQL standard scalar quantization
  • the binary chain is coded using a range coding (RL) based on the Capon model (see in this regard the thesis of M. Kunt, "Comparison of coding techniques for the reduction of redundancy of facsimile images to two levels ", thesis Nr. 183, LTS-DE, EPFL, 1974).
  • the non-zero coefficients are coded using a Huffman code.
  • a feedback from the buffer is used to define the threshold. If the data rate exceeds the maximum, the data flow is truncated and the threshold is lowered for the next image. Due to the pseudo-random order of the scanned sub-blocks, the visual effect of truncation is minimized.
  • Multiplexing is carried out by simple addressing of the memory, then an inverse pyramidal transformation is carried out.
  • the method described here uses motion compensation prediction to reduce the time correlation between the images. Studies have shown that this method is very effective in reducing temporal redundancy (see on this subject the articles by A. Puri, HM Hang and DL Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, and by AN Netravali and JD Rob ' bins, "Motion Compensated Television Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). The same displacement vectors obtained are also used for the conversion from progressive to interlaced and for slow motion with good rendering of the movement.
  • V (m, n) representing the field of motion
  • F (m, n) the predicted image
  • F (m, n) the interpolated image
  • m and n are the indices of the rows and columns of the image.
  • the movement estimation is carried out on the basis of the two previous images. Thus, as said above, no additional information is required.
  • the motion estimation is performed based on the current image and the previous image. In this case, a better estimate is obtained, but additional information on the motion vectors is to be sent through the channel.

Abstract

A method comprising an image decomposition step using multiresolution pyramidal Gabor transformation. The transformed image data arranged in a pyramid of sub-bands are then selected in three groups according to the spatial frequency level of the sub-band data, wherein the sub-band data of each group are coded by a respective one of three coding operations which are performed in parallel and each of which has a specific performance matching the properties of the data in each group. A reverse transformation operation is then performed to recreate the images. The method uses movement-compensation prediction to reduce the time correlation between the two images without movement vector transmission to the receiver being absolutely necessary. The method further uses filters providing decomposition into sub-bands which only comprise value coefficients that are powers of two or the sum of or difference between two powers of two. A previous step allows the data for processing to be converted from interlaced (CCIR 601 format) to progressive modes, based on a movement-compensated interpolation. A final progressive to interlaced mode conversion step may be provided in the decoder.

Description

Procédé de compression de séquences d'images numériques Method for compressing digital image sequences
L'utilisation de séquences d'images devient de plus en plus importante dans les applications de l'imagerie moderne, telles que la télévision à haute définition (HDTV) , les téléconférences, les applications multi-médias, l'imagerie médicale, la robotique, l'imagerie satellite, la vidéo inter¬ active et les divertissements.The use of image sequences is becoming increasingly important in modern imaging applications, such as high definition television (HDTV), teleconferencing, multi-media applications, medical imaging, robotics , satellite imagery, interactive video and entertainment.
L'influence du domaine de l'imagerie, en technologie, en politique, dans la société, dans l'économie, de même que dans l'art et la culture, rend cette utilisation de séquences d'images encore plus importante. C'est pourquoi un grand nombre de sociétés et d'organisations, nationales et interna- tionales, se sont investies dans les différents aspects de la science de l'imagerie.The influence of the imagery field, in technology, in politics, in society, in the economy, as well as in art and culture, makes this use of image sequences even more important. This is why a large number of companies and organizations, national and international, have invested in the various aspects of the science of imagery.
En ce qui concerne la télévision à haute définition, par exemple, d'importants efforts sont entrepris pour définir des nouveaux standards. Les efforts japonais dans ce domaine ne sont pas nouveaux. Dans les années 1970 déjà, la société NHK (Nippon Hoso Kyokai) a commencé ses recherches préparatoires avec onze fabricants de télévision japonais. Le résultat de ces efforts, MUSE (Multiple sub-nyquist sampling encoding) est un système haute-définition analogique. L'introduction de ce système a déjà commencé sur une petite échelle au Japon. L'Europe a suivi le Japon avec un autre système analogique, le HD-MAC (High Définition Multiplexed Analog Components) . La première mise en service de ce système est prévue pour 1995. D'autres systèmes intermédiaires tels que D-MAC ou D2- MAC sont déjà disponibles. De nombreuses sociétés et univer¬ sités américaines travaillent aussi pour introduire un système de télévision à haute définition analogique ou numé¬ rique. On peut citer entre autres le MIT-RC et le MIT-CC du Massachusetts Institute of Technology, le 3XNTSC de Zénith et le HDS-NA de North American Philips.In high-definition television, for example, significant efforts are being made to define new standards. Japanese efforts in this area are not new. Already in the 1970s, the company NHK (Nippon Hoso Kyokai) began its preparatory research with eleven Japanese television manufacturers. The result of these efforts, MUSE (Multiple sub-nyquist sampling encoding) is a high-definition analog system. The introduction of this system has already started on a small scale in Japan. Europe followed Japan with another analog system, HD-MAC (High Definition Multiplexed Analog Components). The first commissioning of this system is planned for 1995. Other intermediate systems such as D-MAC or D2-MAC are already available. Many American companies and universities are also working to introduce a high definition analog or digital television system. These include MIT-RC and MIT-CC from the Massachusetts Institute of Technology, 3XNTSC from Zénith and HDS-NA from North American Philips.
Parmi les autres applications du codage vidéo numérique on peut citer la recommandation H261 CCITT (Comité consultatif international télégraphique et téléphonique) de vidéo- téléphonie et de vidéo-conférence qui est un système de codage numérique, et aussi le système de codage pour vidéo intercative (ISO/IEC JTC1/SC2/ G11) proposé par le MPEG (Motion Picture Expert Group) .Other applications of digital video coding include may quote recommendation H261 CCITT (International Telegraph and Telephone Consultative Committee) for video telephony and video conference which is a digital coding system, and also the coding system for interactive video (ISO / IEC JTC1 / SC2 / G11) proposed by MPEG (Motion Picture Expert Group).
Un procédé de compression d'images numériques comportant une étape de décomposition des images par transformation en sous- bandes est décrit dans "International Conférence onA method of compressing digital images comprising a step of decomposing images by transformation into sub-bands is described in "International Conférence on
Acoustics, Speech and Signal Processing, Albuquerque, 3-6 April, 1990, vol. 4, IEEE (New York, US), M. Antonini et al: Image coding using vectόr quantization in the wavelet transform domain, pp. 2299-2300". Il s'agit d'une application de la quantification vectorielle pour comprimer une structure de données multirésolution. Le procédé décrit ne permet de réduire les redondances qu'à l'intérieur de chaque sous- bande, mais ne tient pas compte de la dépendance entre les sous-bandes. Par ailleurs, le codage vectoriel est appliqué à toutes les sous-bandes, quelle que soit l'importance de la fréquence spatiale des données des sous-bandes. Or, les caractéristiques des sous-bandes étant différentes selon l'importance de la fréquence spatiale, le procédé proposé ne permet pas de tirer le meilleur parti de ces différences. D'autre part, ce procédé ne fait aucune différence entre les filtres d'analyse et les filtres de synthèse quant à leur complexité, ce qui implique que le coût d'un décodeur mettant en oeuvre ce procédé est aussi élevé que celui du codeur.Acoustics, Speech and Signal Processing, Albuquerque, 3-6 April, 1990, vol. 4, IEEE (New York, US), M. Antonini et al: Image coding using vectόr quantization in the wavelet transform domain, pp. 2299-2300 ". This is an application of vector quantization to compress a multiresolution data structure. The described method only reduces redundancies within each sub-band, but does not take account for the dependence between the sub-bands. Furthermore, vector coding is applied to all the sub-bands, regardless of the importance of the spatial frequency of the data of the sub-bands. However, the characteristics of the sub-bands being different according to the importance of the spatial frequency, the proposed method does not make the most of these differences. On the other hand, this method makes no difference between the analysis filters and the synthesis filters as to their complexity, which implies that the cost of a decoder implementing this method is as high as that of the coder.
Le but de la présente invention est de proposer un procédé de compression d'images numériques destiné aux transmissions vidéo-numériques ou à la mémorisation numérique sur des supports tels que des disques compacts ou des disques optiques, de façon à obtenir des débits de transmission moyens de l'ordre de 1 à 10 Mb/s avec une qualité supérieure par rapport aux systèmes connus, tels que par exemple H261 CCITT ou MPEG mentionnés plus haut, et avec une mise en oeuvre relativement simple. A cet effet l'invention concerne un procédé de compression de séquences d'images numériques comportant une étape de décom¬ position des images par transformation en sous-bandes, tel que défini à la revendication 1. Elle concerne également un dispositif pour la mise en oeuvre du procédé, tel que défini à la revendication 12, ainsi qu'un banc de filtres pour la mise en oeuvre du procédé, tel que défini à la revendication 13, et un banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri- ques, tel que défini à la revendication 15.The aim of the present invention is to provide a method of compressing digital images intended for video-digital transmissions or for digital storage on media such as compact disks or optical disks, so as to obtain average transmission rates. of the order of 1 to 10 Mb / s with higher quality compared to known systems, such as for example H261 CCITT or MPEG mentioned above, and with a relatively simple implementation. To this end, the invention relates to a method for compressing sequences of digital images comprising a step of decom¬ position the images by transformation into sub-bands, as defined in claim 1. It also relates to a device for setting implementation of the method, as defined in claim 12, as well as a filter bank for implementing the method, as defined in claim 13, and a filter bank intended for rapid multiresolution transformation for compression digital images, as defined in claim 15.
Le procédé de l'invention permet en particulier de tenir compte de la redondance non seulement à l'intérieur d'une sous-bande, mais également de la dépendance entre les sous- bandes, ce qui conduit à une efficacité supérieure à celle des procédés connus. Le procédé de l'invention a l'avantage d'être très simple pour sa mise en pratique. Il utilise très peu de mémoire tout en étant très efficace. Par ailleurs, la précision des vecteurs de mouvement est uniquement limitée par la précision arithmétique des opérations élémentaires de la contrainte spatio-temporelle.The method of the invention makes it possible in particular to take into account the redundancy not only inside a sub-band, but also the dependence between the sub-bands, which leads to a higher efficiency than that of the methods. known. The method of the invention has the advantage of being very simple for its implementation. It uses very little memory while being very efficient. Furthermore, the precision of the motion vectors is only limited by the arithmetic precision of the elementary operations of the space-time constraint.
D'autre part, la structure des filtres de synthèse beaucoup moins complexe que celle des filtres d'analyse permet de simplifier l'opération de décodage, ce qui est vital pour abaisser le coût du décodeur. Les filtres proposés peuvent être mis en oeuvre efficacement en termes de composantes polyphasés grâce aux structures du type QMF (quadrature mirror filter) contenues dans les parties d'analyse de syn- thèse. La structure du banc de filtres permet une réalisation VLSI avec une fréquence d'horloge deux fois plus faible que celle proposée jusqu'ici, les filtres étant obtenus par optimisation d'une fonction de localisation à la fois dans l'espace image et dans l'espace fréquentiel.On the other hand, the structure of the synthesis filters much less complex than that of the analysis filters makes it possible to simplify the decoding operation, which is vital to lower the cost of the decoder. The proposed filters can be implemented effectively in terms of polyphase components thanks to the structures of the QMF (quadrature mirror filter) type contained in the synthesis analysis parts. The structure of the filter bank allows a VLSI implementation with a clock frequency half as low as that proposed so far, the filters being obtained by optimization of a localization function both in image space and in the 'frequency space.
Comme représenté aux figures 1 et 3, l'organisation à multi¬ résolution des données est prise en compte par trois techni¬ ques de codage différentes, chacune donnant lieu à des performances spécifiques adaptées aux propriétés des classes de données respectives.As shown in FIGS. 1 and 3, the multi-resolution organization of the data is taken into account by three different coding techniques, each giving rise to specific performances adapted to the properties of the respective data classes.
Les fréquences moyennes sont codées par une quantification vectorielle (VQ) à structure pyramidale. Cette dernière élimine la corrélation spatiale linéaire et non-linéaire, de même que la corrélation linéaire et non-linéaire à travers les sous-bandes. Comme représenté sur la figure 4, cette structure pyramidale consiste en une image à basse résolution dans un niveau de la pyramide et des images de détail dans les autres niveaux. La transformation pyramidale qui en résulte permet d'obtenir des informations à différents niveaux de résolution.The average frequencies are coded by a vector quantization (VQ) with a pyramidal structure. The latter eliminates linear and non-linear spatial correlation, as well as linear and non-linear correlation across sub-bands. As shown in Figure 4, this pyramid structure consists of a low resolution image in one level of the pyramid and detail images in the other levels. The resulting pyramid transformation provides information at different levels of resolution.
Un balayage pseudo-aléatoire des sous-bandes de haute fré¬ quence minimise la distorsion visuelle due au débordement de la mémoire-tampon en la répartissant sur toute la surface de l'image. Pseudo-aléatoire s'entend ici dans un sens analogue à celui de la fonction hasard (randomize) d'un ordinateur.A pseudo-random scanning of the high-frequency sub-bands minimizes the visual distortion due to the overflow of the buffer memory by distributing it over the entire surface of the image. Pseudo-random is understood here in a sense analogous to that of the randomize function of a computer.
La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées.The spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation.
La forme spéciale des filtres de synthèse et d'analyse conduit à une mise en oeuvre efficace, tout en conservant une localisation maximale aussi bien dans les domaines spatial que de fréquence spatiale.The special shape of the synthesis and analysis filters leads to efficient implementation, while maintaining maximum localization in both the spatial and spatial frequency domains.
Ce procédé peut être utilisé pour coder entre autres les formats ISO/CCIR 601 et CCITT/CIF. Pour les données à traiter qui sont dans le format CCIR 601, on procède préalablement dans le codeur à une conversion d'entrelacé à progressif (figure 1), puis dans le décodeur à une conversion de progressif à entrelacé (figure 2), afin de restaurer le format initial. Ces conversions sont basées sur une interpo¬ lation avec compensation de mouvement. Elles ne sont pas nécessaires pour les formats à balayage progressif. L'utilisation de la décomposition de Gabor a été choisie d'une part du fait que les fonctions de Gabor, qui sont des fonctions gaussiennes modulées par des exponentielles complexes, ont une localisation optimale dans le domaine conjoint spatial/fréquence spatiale. D'autre part, selon des expériences récentes, la majorité des profils des champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. La partition du domaine de fréquence spatiale en bandes d'octaves est motivée par des statistiques d'images naturelles et aussi par la sensibilité du système visuel humain.This process can be used to encode among others the ISO / CCIR 601 and CCITT / CIF formats. For the data to be processed which are in the CCIR 601 format, one proceeds beforehand in the coder to a conversion from interlaced to progressive (figure 1), then in the decoder to a conversion from progressive to interlaced (figure 2), in order to restore the original format. These conversions are based on an interpolation with motion compensation. They are not necessary for progressive scan formats. The use of the Gabor decomposition was chosen on the one hand because the Gabor functions, which are Gaussian functions modulated by complex exponentials, have an optimal location in the joint spatial / spatial frequency domain. On the other hand, according to recent experiences, the majority of the receptive field profiles of the mammalian visual system can be modeled by this type of function. The partitioning of the spatial frequency domain into octave bands is motivated by natural image statistics and also by the sensitivity of the human visual system.
Le principal inconvénient des fonctions de Gabor réside en ce qu'elles ne forment pas une base orthogonale. Par conséquent, il n'y a pas à priori une méthode directe pour calculer la transformation, comme on peut le faire dans un cas orthogonal par simples produits scalaires. On a déjà proposé une méthode pour effectuer la transformation pyramidale de Gabor. Cette technique est basée sur le critère de l'ajustement par la méthode des moindres carrés. La solution au problème de la méthode des moindres carrés montre que les coefficients de pondération peuvent être extraits par simple multiplication entre une matrice et un vecteur de données. Si l'ensemble des fonctions de Gabor est choisi indépendamment de l'image, la matrice multiplicative est constante. Les données reconsti¬ tuées sont obtenues par une autre multiplication entre la matrice des fonctions de Gabor et le vecteur des coefficients de pondération. Une mise en oeuvre parallèle de la transfor¬ mation est par conséquent réalisée pour effectuer la trans- formation en temps réel.The main disadvantage of Gabor functions is that they do not form an orthogonal basis. Consequently, there is not a priori a direct method to compute the transformation, as one can do it in an orthogonal case by simple scalar products. A method has already been proposed for carrying out the Gabor pyramid transformation. This technique is based on the criterion of adjustment by the method of least squares. The solution to the problem of the method of least squares shows that the coefficients of weighting can be extracted by simple multiplication between a matrix and a vector of data. If the set of Gabor functions is chosen independently of the image, the multiplicative matrix is constant. The reconstructed data are obtained by another multiplication between the matrix of Gabor functions and the vector of the weighting coefficients. A parallel implementation of the transformation is therefore carried out to carry out the transformation in real time.
La chrominance est sous-échantillonnée dans le domaine de la transformée en éliminant les composants de plus hautes fréquences de la pyramide (figure 4) . Ce procédé ne détériore pas la qualité visuelle des images couleurs.The chrominance is undersampled in the transform domain by eliminating the higher frequency components from the pyramid (Figure 4). This process does not deteriorate the visual quality of color images.
La composante continue spatiale (image à basse résolution, voir figure 3) est codée en utilisant la modulation par impulsions codées (PCM) . Les niveaux moyens de la pyramide sont codés en utilisant une quantification vectorielle (VQ) hiérarchique à structure arborescente, telle que représentée à la figure 4. Les plus hautes fréquences spatiales sont sélectionnées de façon adaptative et quantifiées scalairement (SQ/RL) . L'information de la position et l'amplitude des coefficients sont codés séparément. Le pas adaptatif de la quantification et un codeur entropique à longueur variable sont contrôlés en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.The spatial continuous component (low resolution image, see Figure 3) is coded using modulation by coded pulses (PCM). The average levels of the pyramid are coded using a hierarchical vector quantization (VQ) with a tree structure, as represented in FIG. 4. The highest spatial frequencies are selected adaptively and scalarly quantized (SQ / RL). The position information and the amplitude of the coefficients are coded separately. The adaptive quantization step and a variable length entropy encoder are controlled using a feedback strategy based on the occupation of the buffer memory.
De façon à exploiter la corrélation temporelle (inter-images) entre les coefficients de chaque image, une technique d'inter-images différentielle est utilisée. A l'aide de deux images précédentes, l'image courante est prédite par une extrapolation compensée en mouvement, et seulement l'erreur de prédiction est codée et transmise. Les vecteurs de mouve¬ ment sont estimés de façon hiérarchique (appariement de blocs ou contrainte spatio-temporelle) . Ces mêmes vecteurs sont également utilisés lors de la conversion de progressif à entrelacé. De façon à éviter une accumulation d'erreurs de canal, une technique d'intra-image est appliquée dans un intervalle fixe pour mettre à jour complètement tous les coefficients. Ce mécanisme est aussi redémarré après chaque changement de scène.In order to exploit the temporal correlation (inter-images) between the coefficients of each image, a differential inter-image technique is used. Using two previous images, the current image is predicted by a motion compensated extrapolation, and only the prediction error is coded and transmitted. The motion vectors are estimated hierarchically (pairing of blocks or spatio-temporal constraint). These same vectors are also used when converting from progressive to interlaced. In order to avoid an accumulation of channel errors, an intra-image technique is applied in a fixed interval to completely update all the coefficients. This mechanism is also restarted after each scene change.
Les particularités et avantages de l'invention ressortiront bien de la description qui suit, donnée à titre d'exemple, et qui se réfère aux dessins annexés.The features and advantages of the invention will emerge clearly from the description which follows, given by way of example, and which refers to the accompanying drawings.
La figure 1 est un schéma-bloc d'un dispositif de codage fonctionnant selon le procédé de l'invention.Figure 1 is a block diagram of a coding device operating according to the method of the invention.
La figure 2 est un schéma-bloc d'un dispositif de décodage fonctionnant selon le procédé de l'invention.Figure 2 is a block diagram of a decoding device operating according to the method of the invention.
La figure 3 illustre les trois différentes régions de données selon les trois stratégies de codage. La figure 4 illustre la mise en oeuvre des vecteurs de la quantification vectorielle.Figure 3 illustrates the three different data regions according to the three coding strategies. FIG. 4 illustrates the implementation of the vectors of vector quantization.
La figure 5 est un schéma-bloc de la compensation en mouvement.Figure 5 is a block diagram of motion compensation.
La figure 6 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres d'analyse.FIG. 6 shows an example of impulse response of a filter from the analysis filter bank.
La figure 7 montre un exemple de réponse impulsionnelle d'un filtre du banc de filtres de synthèse.FIG. 7 shows an example of impulse response of a filter from the synthesis filter bank.
La figure 8 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres d'analyse.FIG. 8 gives a representation in the frequency domain of the filters of the analysis filter bank.
La figure 9 donne une représentation dans le domaine fréquentiel des filtres du banc de filtres de synthèse.FIG. 9 gives a representation in the frequency domain of the filters of the bank of synthesis filters.
Les conversions d'entrelacé à progressif et de progressif à entrelacéConversions from interlaced to progressive and from progressive to interlaced
Le système peut être utilisé pour coder les deux formats ISO/CCIR 601 (entrelacé) et CCITT/CIF (progressif) . Le format ISO/CCIR 601 est constitué de 288 par 720 images entrelacées à une fréquence de 50 champs par secondes pour les systèmes à 625 lignes. Le format CCITT/CIF est constitué de 288 par 360 images progressives à une fréquence de 25 images par seconde. Lorsque l'image d'entrée est dans un format entrelacé, un premier bloc (figures 1) exécute la conversion d'entrelacé à progressif. Cette première conversion est basée sur une interpolation spatiale avec compensation de mouvement. Un dernier bloc au décodage (figure 2) permet de retrouver le format initial en effectuant une conversion de progressif à entrelacé. Cette deuxième conversion utilise une interpola- tion temporelle avec compensation de mouvement.The system can be used to encode the two formats ISO / CCIR 601 (interlaced) and CCITT / CIF (progressive). The ISO / CCIR 601 format consists of 288 by 720 interlaced images at a frequency of 50 fields per second for 625-line systems. The CCITT / CIF format consists of 288 by 360 progressive images at a frequency of 25 images per second. When the input image is in an interlaced format, a first block (Figures 1) performs the conversion from interlaced to progressive. This first conversion is based on a spatial interpolation with motion compensation. A final block on decoding (Figure 2) allows you to find the initial format by converting from progressive to interlaced. This second conversion uses time interpolation with motion compensation.
De façon à pouvoir effectuer la conversion de 50 champs entrelacés par seconde en 25 images progressives par seconde et vice-versa, les étapes suivantes sont mises en oeuvre. Une image est générée pour chaque champ en utilisant une interpo¬ lation spatiale. Ceci conduit à 50 images par seconde. La séquence d'image est sous-échantillonnée dans le domaine temporel, de façon à conserver seulement 25 images par seconde. La transformation et le codage peuvent alors être effectués. Dans le décodeur, une interpolation temporelle est exécutée. Ceci conduit à 50 images par seconde. Finalement, on conserve seulement les lignes paires ou impaires des images, de façon à générer 50 champs par seconde.In order to be able to convert 50 interlaced fields per second into 25 progressive images per second and vice versa, the following steps are implemented. An image is generated for each field using spatial interpolation. This leads to 50 frames per second. The image sequence is sub-sampled in the time domain, so as to preserve only 25 images per second. Transformation and coding can then be performed. In the decoder, a temporal interpolation is executed. This leads to 50 frames per second. Finally, we only keep the even or odd lines of the images, so as to generate 50 fields per second.
La technique suivante est utilisée pour cette conversion. Les lignes manquantes sont obtenues en utilisant une interpola¬ tion spatio-temporelle avec compensation de mouvement entre les deux lignes voisines existant de part et d'autre de la ligne manquante. Ceci permet de passer d'une fréquence d'ima¬ ges de 25 images par seconde à une fréquence d'images de 50 images progressives par seconde. On utilise une inter¬ polation temporelle compensée en mouvement. Le mouvement entre deux images consécutives est estimé par une technique hiérarchique. Ces mêmes vecteurs de mouvement sont également utilisés pour la prédiction par compensation de mouvement, et ils ne sont bien évidemment calculés qu'une fois. Ces deux techniques ont déjà été largement étudiées par de nombreux auteurs, par exemple dans les articles de M. Bierling,The following technique is used for this conversion. The missing lines are obtained by using a space-time interpolation with compensation for movement between the two neighboring lines existing on either side of the missing line. This makes it possible to go from an image frequency of 25 images per second to an image frequency of 50 progressive images per second. A time compensated motion interpolation is used. The movement between two consecutive images is estimated by a hierarchical technique. These same motion vectors are also used for motion compensation prediction, and they are obviously only calculated once. These two techniques have already been widely studied by many authors, for example in the articles by M. Bierling,
"Displacement estimation by hierarchical blockmatching", SPIE Visual Communications and Image Processing '88' vol. 1001, 1988, pp. 942-951 et de M. Bierling et R. Thoma "Motion co pénsating field interpolation using a hierarchically structured displacement estimator". Signal Processing 11 (1986) 387-404."Displacement estimation by hierarchical blockmatching", SPIE Visual Communications and Image Processing '88' vol. 1001, 1988, pp. 942-951 and by M. Bierling and R. Thoma "Motion co pensating field interpolation using a hierarchically structured displacement estimator". Signal Processing 11 (1986) 387-404.
La transformation pyramidale de GaborGabor's pyramid transformation
La décomposition en sous-bandes et le codage par transformée en tant que sous-ensemble de la décomposition en sous-bandes sont très populaires pour la compression des données, grâce à la bonne qualité des résultats obtenus pour un taux de compression donné par comparaison avec d'autres techniques.Subband decomposition and transform coding as a subset of subband decomposition are very popular for data compression, thanks to the good quality of the results obtained for a rate of compression given by comparison with other techniques.
La transformation utilisée dans le présent système est une transformation pyramidale de Gabor à multi-résolution. Au cours de ces dernières années, de nombreux travaux ont démontré que les techniques de multirésolution sont très efficaces pour l'analyse et le codage d'images; comme par exemple S.G. Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Représentation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, et Rosenfeld, A., "Multirésolution Image Processing and Analysis", Springer- Verlag, 1984, Berlin, Germany.The transformation used in the present system is a Gabor pyramid transformation with multi-resolution. In recent years, numerous studies have shown that multiresolution techniques are very effective for image analysis and coding; as for example SG Mallat, "A Theory for Multirésolution Signal Décomposition: The avelet Representation", pami IEEE, volume 11, number 7, July, pages 674-693, 1989, and Rosenfeld, A., "Multirésolution Image Processing and Analysis" , Springer-Verlag, 1984, Berlin, Germany.
Le choix des fonctions de Gabor pour la base de la transfor- mation (ou pour la réponse impulsionnelle des filtres de synthèse) est motivée par le fait que ces fonctions ont une localisation optimale dans le domaine conjoint spatial/ fréquence spatiale. En d'autres mots, les fonctions de Gabor sont les seules à atteindre la borne inférieure de l'incerti- tude de Heisenberg dans l'espace des signaux. Ce principe affirme que le produit de l'étendue d'un signal dans le domaine spatial avec son étendue dans le domaine fréquentiel est toujours supérieur ou égal à une constante. Le minimum est atteint précisément, quand le signal est une fonction de Gabor. D'autre part, comme l'ont montré des expériences récentes, la majorité des profils de champs réceptifs du système visuel des mammifères peuvent être modélisés par ce type de fonctions. En outre le spectre de puissance des images naturelles décroît de manière exponentielle lorsque la fréquence spatiale augmente. Ceci motive le choix d'une décomposition en bandes d'octave du domaine fréquentiel. De plus, des mesures faites sur les cellules du champ réceptif du cortex visuel des mammifères ont montré que chacune d'entre elles est sensible aux fréquences se trouvant dans une sous-bande dont la largeur de bande correspond à une octave.The choice of the Gabor functions for the basis of the transformation (or for the impulse response of the synthesis filters) is motivated by the fact that these functions have an optimal localization in the joint spatial / spatial frequency domain. In other words, the Gabor functions are the only ones to reach the lower limit of Heisenberg uncertainty in the space of signals. This principle states that the product of the extent of a signal in the spatial domain with its extent in the frequency domain is always greater than or equal to a constant. The minimum is reached precisely, when the signal is a Gabor function. On the other hand, as recent experiments have shown, the majority of receptive field profiles of the mammalian visual system can be modeled by this type of function. In addition, the power spectrum of natural images decreases exponentially as the spatial frequency increases. This motivates the choice of a decomposition into octave bands of the frequency domain. In addition, measurements made on the cells of the receptive field of the visual cortex of mammals have shown that each of them is sensitive to frequencies located in a sub-band whose bandwidth corresponds to one octave.
La conception des filtres d'analyse et de synthèse (ou de manière équivalente les fonctions de base de la transfor¬ mation et des fonctions bi-orthogonales à celles-ci) s'effec¬ tue en utilisant la solution des moindres carrés. Cette solution montre que les coefficients de la transformation peuvent être extraits par un simple produit de matrice ATFA qui est équivalent à un filtrage et à un sous-échantillon¬ nage, où A est la matrice des filtres d'analyse et F la matrice de l'image. De manière similaire, la transformation inverse est obtenue à l'aide d'un autre produit de matrice GXGT qui met en oeuvre le suréchantillonnage et le filtrage inverse, où G est la matrice des filtres de synthèse et X la matrice des coefficients de la transformation, et où
Figure imgf000012_0001
lorsqu'il s'agit de matrices carrées, tel que décrit dans l'article de T. Ebrahimi, T. Reed, et M. Kunt, "Séquence coding by Gabor Décomposition", Signal
The design of analysis and synthesis filters (or equivalent way the basic functions of the transformation and of the bi-orthogonal functions to these) is performed using the least squares solution. This solution shows that the transformation coefficients can be extracted by a simple matrix product A T FA which is equivalent to a filtering and a subsampling, where A is the matrix of the analysis filters and F the matrix of the image. Similarly, the inverse transformation is obtained using another product of matrix GXG T which implements oversampling and inverse filtering, where G is the matrix of the synthesis filters and X the matrix of the coefficients of the transformation, and where
Figure imgf000012_0001
when it comes to square matrices, as described in the article by T. Ebrahimi, T. Reed, and M. Kunt, "Sequence coding by Gabor Décomposition", Signal
Processing V, Proceedings of Ensipco 90, Pages 769-772, 1990.Processing V, Proceedings of Ensipco 90, Pages 769-772, 1990.
Pour des questions pratiques, telles que la possibilité d'implantation en vue d'une application en temps réel, une approximation des fonctions de Gabor est utilisée pour générer les fonctions de base de la transformation. Les filtres de synthèse sont conçus pour ne contenir que des coefficients qui sont une somme ou une différence de deux puissances de deux au plus. Plusieurs méthodes ont été proposées pour approximer un filtre donné, par exemple par une méthode basée sur les critères min-max ou moindres carrés par la programmation linéaire ou quadratique (voir l'article de Y.C. Lim et S.R. Parker, "FIR Filter Design over a discrète powers-of-two coefficient space", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), et par une méthode basée sur le recuit simulé (voir l'article de N. Benvenuto, M. Marchesi et A. Uncini, "Results on the application simulated annealing algorithm for the design of digital filters.with powers-of-two coefficients", IEEE proceedings 1990, Pages 1301-1304) . Il est également possible d'approximer un filtre donné par plusieurs filtres mis en cascade. Cette approximation permet d'effectuer la transfor¬ mation inverse très rapidement en utilisant seulement quelques opérations d'addition et de décalage. Toutes les opérations de filtrage sont effectuées sur une architecture hautement parallèle ASP (Associative String Processor) . (Voir: Lea R.M., ASP: parallel Computing technology, SPIE Visual communication and image processing 90, vol 1360,For practical questions, such as the possibility of implementation for real-time application, an approximation of the Gabor functions is used to generate the basic functions of the transformation. The synthesis filters are designed to contain only coefficients which are a sum or a difference of two powers of two at most. Several methods have been proposed to approximate a given filter, for example by a method based on min-max or least squares criteria by linear or quadratic programming (see the article by YC Lim and SR Parker, "FIR Filter Design over a discrete powers-of-two coefficient space ", IEEE transactions on ASSP Vol. 31 No. 3, 1983, Pages 583-591), and by a method based on simulated annealing (see the article by N. Benvenuto, M. Marchesi and A. Uncini, "Results on the application simulated annealing algorithm for the design of digital filters.with powers-of-two coefficients", IEEE proceedings 1990, Pages 1301-1304). It is also possible to approximate a given filter by several filters cascaded. This approximation allows reverse transformation to be carried out very quickly using only some addition and shift operations. All filtering operations are performed on a highly parallel architecture ASP (Associative String Processor). (See: Lea RM, ASP: parallel Computing technology, SPIE Visual communication and image processing 90, vol 1360,
Lausanne, Switzerland p. 78-91) . La complexité est cependant déplacée dans les filtres d'analyse. Toutefois, il est possible d'approximer également ces filtres par une somme ou une différence de puissances de deux. Après cette dernière opération, la propriété de reconstruction parfaite n'est plus vérifiée. Néanmoins, des résultats montrent une qualité quasi-parfaite des images reconstruites, avec un rapport signal sur erreur de reconstruction dépassant 46 dB. Un exemple de banc de filtres ayant des coefficients en puissan- ces de deux, approximant des filtres de Gabor, est donné aux figures 6 à 9. Sur les figures 7 et 9, les courbes en traitillé 1 représentent des filtres idéaux, les courbes en pointillé 2 étant celles des filtres obtenus, faciles à implémenter.Lausanne, Switzerland p. 78-91). The complexity is however moved in the analysis filters. However, it is also possible to approximate these filters by a sum or a difference of powers of two. After this last operation, the perfect reconstruction property is no longer checked. Nevertheless, results show an almost perfect quality of the reconstructed images, with a signal to reconstruction error ratio exceeding 46 dB. An example of a filter bank having power coefficients of two, approximating Gabor filters, is given in FIGS. 6 to 9. In FIGS. 7 and 9, the curves in dashed lines 1 represent ideal filters, the curves in dotted line 2 being those of the filters obtained, easy to implement.
Les coefficients du filtre prototype (figure 6) du banc de filtres d'analyse sont les suivants:The coefficients of the prototype filter (Figure 6) of the analysis filter bank are as follows:
f(l)=f(10)=2-« f(2)=f(9)=0
Figure imgf000013_0001
f(4)=f(7)=-2-7 f(5)=f(6)=2°
f (l) = f (10) = 2- " f (2) = f (9) = 0
Figure imgf000013_0001
f (4) = f (7) = - 2- 7 f (5) = f (6) = 2 °
Les coefficients du filtre prototype (figure 7) du banc de filtres de synthèse sont les suivants:The coefficients of the prototype filter (Figure 7) of the synthesis filter bank are as follows:
g(D=g(6)=2-'
Figure imgf000013_0002
g(3)=g(4)=2°
g (D = g (6) = 2- '
Figure imgf000013_0002
g (3) = g (4) = 2 °
Pour une mise en oeuvre pratique, les coefficients de ces filtres sont programmés dans un chip spécial selon une structure en poly-phase.For practical implementation, the coefficients of these filters are programmed in a special chip according to a poly-phase structure.
Le démultiplexage est réalisé par un simple adressage de la mémoire.Demultiplexing is achieved by simple addressing of the memory.
La quantificationQuantification
Les coefficients de l'image transformée sont codés selon trois méthodes différentes dépendant de la fréquence spatiale à laquelle ils appartiennent. Ces classes de codage sont représentées à la figure 3.The coefficients of the transformed image are coded according to three different methods depending on the spatial frequency to which they belong. These coding classes are shown in Figure 3.
a) La modulation par impulsions codées (PCM)a) Pulse code modulation (PCM)
La sous-bande spatiale de composante continue est codée par une technique classique de modulation par impulsions codées. Cette technique est relativement robuste en présence de bruit.The spatial sub-band of the continuous component is coded by a conventional technique of pulse code modulation. This technique is relatively robust in the presence of noise.
b) La quantification vectorielle hiérarchique (VQ)b) Hierarchical vector quantification (DV)
Il est bien connu comment la quantification vectorielle (VQ) peut améliorer les performances par rapport à la quantification scalaire (SQ) . (J.S. Lim, "Two-dimensional signal and image processing", pp. 589-611, Prentice-Hall éd., 1990, et R.M. Gray, "Vector Quantization", IEEE ASSP Mag., vol 1, pp. 4-29, April 1984). La caractéristique la plus importante de la quantification vectorielle est la façon d'exploiter la dépendance statistique parmi les scalaires dans le bloc de quantification. En utilisant la quantification vectorielle, il est possible de prendre en considération la dépendance linéaire et non linéaire entre les scalaires (éléments dans le bloc formant un vecteur de quantification) .It is well known how vector quantization (VQ) can improve performance compared to scalar quantization (SQ). (JS Lim, "Two-dimensional signal and image processing", pp. 589-611, Prentice-Hall ed., 1990, and RM Gray, "Vector Quantization", IEEE ASSP Mag., Vol 1, pp. 4-29 , April 1984). The most important feature of vector quantization is how to exploit the statistical dependence among scalars in the quantization block. Using vector quantization, it is possible to take into account the linear and non-linear dependence between scalars (elements in the block forming a quantization vector).
Différentes procédures de quantification peuvent être appliquées au codage des sous-bandes générées par la transformation de Gabor. De façon à prendre en considéra- tion la corrélation évidente qui existe entre les différentes bandes, un codage plus efficace peut être obtenu en remplaçant la quantification scalaire par la quantification vectorielle. (Voir à cet égard l'article de G. Galand, E. Lacson, G. Furland et J Menez, "Subband coding of images using adaptive VQ, and Entropy Coding", Image'com 90, pp. 106-110, Bordeaux, Nov. 1990). On utilise la quantification vectorielle dans la zone de fréquences moyennes, où la corrélation est supérieure et où la quantification vectorielle est la plus efficace. Dans le domaine de la transformée les éléments des vecteurs sont choisis conformément à la structure pyramidale décrite plus haut (figure 4) .Different quantization procedures can be applied to the coding of the sub-bands generated by the Gabor transformation. In order to take into consideration tion the obvious correlation that exists between the different bands, a more efficient coding can be obtained by replacing scalar quantization by vector quantization. (See in this regard the article by G. Galand, E. Lacson, G. Furland and J Menez, "Subband coding of images using adaptive VQ, and Entropy Coding", Image'com 90, pp. 106-110, Bordeaux , Nov. 1990). Vector quantization is used in the mid-frequency region, where the correlation is higher and where vector quantization is most effective. In the domain of the transform, the elements of the vectors are chosen in accordance with the pyramidal structure described above (Figure 4).
Un paramètre pertinent est constitué par la dimension des vecteurs, en ce que plus ils sont grands, meilleure est l'exploitation de la corrélation entre coefficients. En accroissant la dimension du dictionnaire, on entraîne un accroissement de la durée de la construction du diction- naire. Pour cette raison et pour de strictes conditions de réalisation (traitement en temps réel, quantité de mémoire), il est intéressant d'utiliser une dimension de vecteurs petite à moyenne, dépendant du nombre de niveaux dans la pyramide quantifiée utilisant la quantification vectorielle.A relevant parameter is the size of the vectors, in that the larger they are, the better the exploitation of the correlation between coefficients. By increasing the size of the dictionary, we increase the duration of the dictionary construction. For this reason and for strict implementation conditions (real-time processing, amount of memory), it is advantageous to use a small to medium size of vectors, depending on the number of levels in the quantified pyramid using vector quantization.
Les coefficients de chrominance sont aussi inclus dans les vecteurs, avec ceux de luminance (figure 4) . D'après des résultats expérimentaux décrits dans la recommandation "Encoding parameters for digital télévision for studios"The chrominance coefficients are also included in the vectors, along with those of luminance (Figure 4). Based on experimental results described in the recommendation "Encoding parameters for digital television for studios"
CCIR Recommendation 601-1 XVIth Plenary Assembly Dubrovnik 1986, Vol. XI, Part 1, pp. 319-328, il est possible de montrer que l'utilisation de coefficients de chrominance uniquement dans les fréquences basses à moyennes ne détériore pas notablement la qualité visuelle. Du point de vue de la réalisation, le contrôle de la mémoire-tampon est évité en adoptant une quantification vectorielle à recherche exhaustive/structure arborescente, en utilisant un code de longueur fixe assigné à chaque élément. On a ainsi défini un système donnant une qualité requise minimum. Le débit binaire correspondant à la qualité ci- dessus restera toujours en-dessous de la capacité du canal, alors que le débit binaire disponible restant peut être utilisé pour améliorer la qualité de l'information de la bande à haute fréquence. Enfin, le dictionnaire est défini à priori et connu à la fois de l'émetteur et du récepteur.CCIR Recommendation 601-1 XVIth Plenary Assembly Dubrovnik 1986, Vol. XI, Part 1, pp. 319-328, it can be shown that the use of chrominance coefficients only in low to medium frequencies does not significantly deteriorate the visual quality. From the point of view of implementation, control of the buffer memory is avoided by adopting vector quantization with exhaustive search / tree structure, using a fixed length code assigned to each element. We thus defined a system giving a minimum required quality. The bit rate corresponding to the above quality will always remain below the channel capacity, while the remaining available bit rate can be used to improve the quality of high frequency band information. Finally, the dictionary is defined a priori and known to both the transmitter and the receiver.
Quantification scalaire, code de longueur variable, contrôle de la mémoire-tampon (SQ/RL)Scalar quantization, variable length code, buffer check (SQ / RL)
Le plus haut niveau de la pyramide est balayé en utilisant un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire. Ce balayage convertit les sous- bandes d'images à deux dimensions en chaîne de nombre à une dimension. Cette chaîne est ensuite quantifiée en utilisant une quantification scalaire standard (SQ) . Il en résulte une chaîne de nombres avec seulement un petit nombre de bits. Ces nombres sont ensuite comparés à un seuil et mis à zéro s'ils sont inférieurs au seuil. La grande majorité des coefficients seront plus petits que le seuil. Cette chaîne est ensuite divisée en deux chaînes, l'une étant une séquence de coefficients non nuls et l'autre étant une chaîne binaire où la valeur un représen¬ te la position d'un coefficient non nul et un zéro représente un coefficient nul. La chaîne binaire est codée en utilisant un codage de plage (RL) basé sur le modèle de Capon (voir à cet égard la thèse de M. Kunt, "Comparaison de techniques d'encodage pour la réduction de redondance d'images facsimile à deux niveaux", thèse Nr. 183, LTS-DE, EPFL, 1974) . Les coefficients non nuls sont codés en utilisant un code de Huffman. De façon à produire une sortie qui soit toujours en-dessous du débit de données maximum autorisé, une contre-réaction depuis la mémoire- tampon est utilisée pour définir le seuil. Si le débit de données dépasse le maximum, le flux de données est tronqué et le seuil est abaissé pour l'image suivante. Du fait de l'ordre pseudo-aléatoire des sous-blocs balayés, l'effet visuel de la troncature est minimisé.The highest level of the pyramid is scanned using a Peano-Hilbert scan in sub-blocks of the image in a pseudo-random order. This scan converts two-dimensional image subbands into a one-dimensional number chain. This chain is then quantified using standard scalar quantization (SQ). The result is a string of numbers with only a small number of bits. These numbers are then compared to a threshold and set to zero if they are below the threshold. The vast majority of the coefficients will be smaller than the threshold. This chain is then divided into two chains, one being a sequence of non-zero coefficients and the other being a binary chain where the value represents the position of a non-zero coefficient and a zero represents a zero coefficient. The binary chain is coded using a range coding (RL) based on the Capon model (see in this regard the thesis of M. Kunt, "Comparison of coding techniques for the reduction of redundancy of facsimile images to two levels ", thesis Nr. 183, LTS-DE, EPFL, 1974). The non-zero coefficients are coded using a Huffman code. In order to produce an output which is always below the maximum authorized data rate, a feedback from the buffer is used to define the threshold. If the data rate exceeds the maximum, the data flow is truncated and the threshold is lowered for the next image. Due to the pseudo-random order of the scanned sub-blocks, the visual effect of truncation is minimized.
Le multiplexage est réalisé par un simple adressage de la mémoire, puis une transformation pyramidale inverse est effectuée.Multiplexing is carried out by simple addressing of the memory, then an inverse pyramidal transformation is carried out.
La prédiction par compensation de mouvementMotion compensation prediction
Le procédé décrit ici utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre les images. Des études ont montré que cette méthode est très efficace pour réduire la redondance temporelle (voir à ce sujet les articles de A. Puri, H.M. Hang et D.L. Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, et de A.N. Netravali et J.D. Rob'bins, "Motion Compensated Télévision Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). Les mêmes vecteurs de déplacement obtenus sont aussi utilisés pour la conversion de progressif à entrelacé et pour le mouvement ralenti avec un bon rendu du mouvement. Dans ces deux cas, une interpolation temporelle avec compensation de mouvement est impliquée (figure 5). La structure de multirésolution de la transformée pyramidale est exploitée pour trouver le mouvement dans deux images consécutives. Sur la figure 5, Fι(m,n) et Fa(m,n) représentent les deux images utilisées pour l'estimation de mouvement, qui peuvent être soit les deux images précédentes, soit une image précédente et l'imageThe method described here uses motion compensation prediction to reduce the time correlation between the images. Studies have shown that this method is very effective in reducing temporal redundancy (see on this subject the articles by A. Puri, HM Hang and DL Schilling, "An Efficient Block-Matching Algorithm for Motion-Compensated Coding", ICASSP, April 1987, pages 25.4.1-4, and by AN Netravali and JD Rob ' bins, "Motion Compensated Television Coding-Part I", journal Bell Systems Technical Journal, volume 58, number 3, 1979, pages 629-668.). The same displacement vectors obtained are also used for the conversion from progressive to interlaced and for slow motion with good rendering of the movement. In these two cases, a temporal interpolation with motion compensation is involved (Figure 5). The multiresolution structure of the pyramidal transform is used to find the movement in two consecutive images. In FIG. 5, Fι (m, n) and F a (m, n) represent the two images used for the motion estimation, which can be either the two previous images, or a previous image and the image
__ Λ courante, V(m,n) représentant le champ de mouvement, F(m,n) l'image prédite et F(m,n) l'image interpolée, et où m et n sont les indices des lignes et colonnes de l'image. On utilise en premier lieu un algorithme d'appariement de blocs, ou de contrainte spatio-temporelle, sur le plus haut niveau de la pyramide avec la résolution la plus basse. Les résul¬ tats sont ensuite projetés vers le bas comme condition initiale dans les niveaux inférieurs et affinés chaque fois. Les résultats finaux sont ensuite utilisés pour prédire l'image courante. L'ensemble du procédé d'estimation de mouvement est effectué sur des images quantifiées, de façon que le récepteur puisse reconstituer les images sans avoir reçu les vecteurs de mouvement. Ce procédé peut ainsi être utilisé lorsqu'aucune information de mouvement n'est néces¬ saire pour le décodage du vecteur de mouvement.__ Λ current, V (m, n) representing the field of motion, F (m, n) the predicted image and F (m, n) the interpolated image, and where m and n are the indices of the rows and columns of the image. We first use a block matching algorithm, or spatio-temporal constraint, on the highest level of the pyramid with the lowest resolution. The results are then projected downwards as an initial condition in the lower levels and refined each time. The final results are then used to predict the current image. The entire motion estimation method is performed on quantized images, so that the receiver can reconstruct the images without having received the motion vectors. This method can thus be used when no movement information is necessary for the decoding of the movement vector.
Comme mentionné ci-dessus, deux modes d'estimation de mouve- ment sont considérés ici. Dans le cas où il n'y a peu de mouvement dans la scène, l'estimation de mouvement est effec¬ tuée en se basant sur les deux images précédentes. Ainsi, comme dit plus haut, aucune information supplémentaire n'est nécessaire. Dans le cas où il y a beaucoup de mouvement dans la scène, l'estimation de mouvement est effectuée en se basant sur l'image courante et l'image précédente. Dans ce cas, une meilleure estimation est obtenue, mais une informa¬ tion supplémentaire sur les vecteurs de mouvement est à envoyer à travers le canal. As mentioned above, two modes of motion estimation are considered here. In the event that there is little movement in the scene, the movement estimation is carried out on the basis of the two previous images. Thus, as said above, no additional information is required. In the case where there is a lot of movement in the scene, the motion estimation is performed based on the current image and the previous image. In this case, a better estimate is obtained, but additional information on the motion vectors is to be sent through the channel.

Claims

REVENDICATIONS
1. Procédé de compression de séquences d'images numéri¬ ques, comportant une étape de décomposition des images par transformation en sous-bandes, caractérisé en ce que l'opéra¬ tion de décomposition est effectuée selon le schéma d'une transformation pyramidale à multirésolution, en ce que les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, sont ensuites sélectionnées en trois grou- pes selon l'importance de la fréquence spatiale des données des sous-bandes, les données des sous-bandes de chaque groupe étant respectivement codées à l'aide de trois opérations de codage différentes exécutées en parallèle, chacune de ces opérations ayant des performances spécifiques adaptées aux propriétés des données de chaque groupe, et en ce qu'une opération de transformation inverse est ensuite exécutée pour reconstituer les images.1. A method of compressing sequences of digital images, comprising a step of decomposing the images by transformation into sub-bands, characterized in that the decomposition operation is carried out according to the diagram of a pyramidal transformation at multiresolution, in that the data of the transformed image, organized in sub-bands in pyramidal form, are then selected in three groups according to the importance of the spatial frequency of the data of the sub-bands, the data of the sub- bands of each group being respectively coded using three different coding operations executed in parallel, each of these operations having specific performances adapted to the properties of the data of each group, and in that an inverse transformation operation is then executed to reconstruct the images.
2. Procédé selon la revendication 1, caractérisé en ce que l'opération de transformation inverse est de complexité inférieure à celle de la transformation directe.2. Method according to claim 1, characterized in that the reverse transformation operation is of less complexity than that of the direct transformation.
3. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que l'on effectue l'opération de décomposi- tion à l'aide d'une transformation pyramidale de Gabor à multirésolution.3. Method according to one of claims 1 or 2, characterized in that the decomposition operation is carried out using a Gabor pyramid transformation with multiresolution.
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce qu'il comporte des filtres pour effectuer la décomposition en sous-bandes ne comportant que des coeffi¬ cients de valeurs étant des puissances de deux ou la somme ou la différence de deux puissances de deux.4. Method according to one of claims 1 to 3, characterized in that it comprises filters for performing the decomposition into sub-bands comprising only coeffi¬ cients of values being powers of two or the sum or the difference of two powers of two.
5. Procédé selon l'une des revendications 1 à 4 , caractérisé en ce qu'il comporte une opération de codage de la sous-bande spatiale de composante continue en utilisant une technique de modulation par impulsions codées, une opération de codage des sous-bandes de fréquences moyennes en utilisant une quantification vectorielle hiérarchique à structure arborescente et une opération de sélection adaptatives des sous-bandes de plus hautes fréquences et de quantification scalaires des sous-bandes sélectionnées.5. Method according to one of claims 1 to 4, characterized in that it comprises an operation of coding the spatial sub-band of continuous component using a pulse code modulation technique, an operation of coding the sub- medium frequency bands in using a hierarchical vector quantization with tree structure and an operation of adaptive selection of the sub-bands of higher frequencies and scalar quantization of the selected sub-bands.
6. Procédé selon la revendication 5, caractérisé en ce que l'opération de quantification scalaire des sous-bandes de plus hautes fréquences comprend un balayage Peano-Hilbert en sous-blocs de l'image selon un ordre pseudo-aléatoire.6. Method according to claim 5, characterized in that the scalar quantization operation of the higher frequency sub-bands comprises a Peano-Hilbert scan in sub-blocks of the image according to a pseudo-random order.
7. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il utilise une prédiction par compensation de mouvement pour réduire la corrélation temporelle entre deux images, sans qu'il soit absolument nécessaire de transmettre les vecteurs de mouvements au récepteur7. Method according to one of the preceding claims, characterized in that it uses a motion compensation prediction to reduce the time correlation between two images, without it being absolutely necessary to transmit the motion vectors to the receiver
8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape préalable de conversion des données à traiter qui sont dans le format CCIR 601, cette étape comportant une opération de conversion d'entrelacé à progressif, basée sur une interpolation avec compensation de mouvement.8. Method according to one of the preceding claims, characterized in that it comprises a prior step of converting the data to be processed which is in the CCIR 601 format, this step comprising an operation of conversion from interleaved to progressive, based on interpolation with motion compensation.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape finale de conver¬ sion des données qui sont dans un format progressif au format CCIR 601, cette étape comportant une opération de conversion progressif à entrelacé, basée sur une interpolation avec compensation de mouvement.9. Method according to one of the preceding claims, characterized in that it comprises a final stage of conversion of the data which are in a progressive format in CCIR 601 format, this stage comprising an operation of progressive conversion to interlaced, based on an interpolation with motion compensation.
10. Procédé selon l'une des revendications 5 à 9, caractérisé en ce que l'information de la position et l'amplitude des coefficients de la quantification sont codés séparément.10. Method according to one of claims 5 to 9, characterized in that the information of the position and the amplitude of the coefficients of the quantization are coded separately.
11. Procédé selon la revendication 10, caractérisé en ce que l'on contrôle le pas adaptatif de la quantification et un codeur entropique à longueur variable en utilisant une stratégie de contre-réaction basée sur l'occupation de la mémoire-tampon.11. Method according to claim 10, characterized in that the adaptive step of the quantification is controlled and a variable length entropy coder using a feedback strategy based on the occupation of the buffer memory.
12. Dispositif pour la mise en oeuvre du procédé selon l'une des revendication 1 à 11, caractérisé en ce qu'il comporte des premiers moyens pour effectuer une décomposition des images en sous-bandes selon le schéma d'une transforma¬ tion pyramidale à multirésolution, des seconds moyens pour sélectionner les données de l'image transformée, organisée en sous-bandes sous forme pyramidale, en trois groupes selon l'importance de la fréquence spatiale des données des sous- bandes, des troisièmes, quatrièmes et cinquièmes moyens destinés au codage respectif en parallèle des données des sous-bandes de chaque groupe, chacun desdits troisièmes, quatrièmes et cinquièmes moyens étant agencés de façon à fournir des performances spécifiques adaptées aux propriétés des données de chaque groupe, et des sixièmes moyens pour effectuer une transformation inverse afin de reconstituer les images.12. Device for implementing the method according to one of claims 1 to 11, characterized in that it comprises first means for decomposing the images into sub-bands according to the diagram of a pyramidal transformation. in multiresolution, second means for selecting the data of the transformed image, organized in sub-bands in pyramidal form, in three groups according to the importance of the spatial frequency of the data of the sub-bands, of the third, fourth and fifth means intended for the respective respective coding of the data of the sub-bands of each group, each of said third, fourth and fifth means being arranged so as to provide specific performances adapted to the properties of the data of each group, and of the sixth means for carrying out a transformation reverse in order to reconstruct the images.
13. Banc de filtres pour la mise en oeuvre du procédé selon l'une des revendications 1 à 11, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruc¬ tion quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution.13. Filter bank for implementing the method according to one of claims 1 to 11, characterized in that it comprises a set of filters of the type with almost perfect reconstruction, each filter containing a number of coefficients in powers of two less than twenty and in multiresolution structure.
14. Banc de filtres selon la revendication 13, caractérisé en ce que le nombre desdits filtres est compris entre six et dix.14. Filter bank according to claim 13, characterized in that the number of said filters is between six and ten.
15. Banc de filtres destiné à une transformation à multirésolution rapide pour la compression d'images numéri¬ ques, caractérisé en ce qu'il comporte un ensemble de filtres du type à reconstruction quasi-parfaite, chaque filtre contenant un nombre de coefficients en puissances de deux inférieur à vingt et en structure à multirésolution. 15. Filter bank intended for a rapid multiresolution transformation for the compression of digital images, characterized in that it comprises a set of filters of the quasi-perfect reconstruction type, each filter containing a number of coefficients in powers of two less than twenty and in multiresolution structure.
16. Banc de filtres selon la revendication 15, caractérisé en ce que le nombre desdits filtres est compris entre six et dix. 16. Filter bank according to claim 15, characterized in that the number of said filters is between six and ten.
PCT/CH1992/000148 1991-07-19 1992-07-16 Method for compressing digital image sequences WO1993002526A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH2167/91-5 1991-07-19
CH216791 1991-07-19

Publications (1)

Publication Number Publication Date
WO1993002526A1 true WO1993002526A1 (en) 1993-02-04

Family

ID=4227458

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CH1992/000148 WO1993002526A1 (en) 1991-07-19 1992-07-16 Method for compressing digital image sequences

Country Status (1)

Country Link
WO (1) WO1993002526A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800684A1 (en) * 1995-10-26 1997-10-15 Motorola, Inc. Method and device for encoding/decoding a displaced frame difference
WO1997039586A1 (en) * 1996-04-15 1997-10-23 Faroudja, Yves, C. Universal video disc record and playback employing motion signals for high quality playback of non-film sources
WO2001047277A1 (en) * 1999-12-20 2001-06-28 Sarnoff Corporation Scalable video encoding
CN104350746A (en) * 2012-05-31 2015-02-11 汤姆逊许可公司 Image quality measurement based on local amplitude and phase spectra

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4663660A (en) * 1986-06-20 1987-05-05 Rca Corporation Compressed quantized image-data transmission technique suitable for use in teleconferencing
JPS62264764A (en) * 1986-05-12 1987-11-17 Nippon Telegr & Teleph Corp <Ntt> Picture information compression system
EP0253608A2 (en) * 1986-07-14 1988-01-20 British Broadcasting Corporation Video scanning systems
EP0396368A2 (en) * 1989-05-04 1990-11-07 AT&T Corp. Perceptually-adapted image coding system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62264764A (en) * 1986-05-12 1987-11-17 Nippon Telegr & Teleph Corp <Ntt> Picture information compression system
US4663660A (en) * 1986-06-20 1987-05-05 Rca Corporation Compressed quantized image-data transmission technique suitable for use in teleconferencing
EP0253608A2 (en) * 1986-07-14 1988-01-20 British Broadcasting Corporation Video scanning systems
EP0396368A2 (en) * 1989-05-04 1990-11-07 AT&T Corp. Perceptually-adapted image coding system

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
1990 IEEE International Symposium on Circuits and Systems, 1-3 mai 1990, New Orleans, LA, US, IEEE (New York, NY, US); B.R. Horng et al.: "The design of multiplierless two-channel linear-phase FIR filter banks with applications to image subband coding", pages 651-653, voir l'article en entier *
1990 IEEE International Symposium on Circuits and Systems, New Orleans, LA, 1-3 mai 1990, vol. 2, IEEE (New York, NY, US); F.-M. Wang et al.: "Time-recursive deinterlacing for IDTV and pyramid coding", pages 1306-1309, voir page 1308, paragraphe 4 - 1309, paragraphe 6 *
GLOBECOM '90, IEEE Global Telecommunications Conference & Exhibition, San Diego, CA, 2-5 décembre 1990, vol. 2, IEEE (New York, NY, US); H. Gharavi: "Subband based CCITT compatible coding for HDTV conferencing", pages 978-981, voir l'abrégé; figure 1 *
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 38, no. 6, juin 1990 (New York, US); G. Karlsson et al.: "Theory of two-dimensional multirate filter banks", pages 925-937, voir figure 1; page 930, colonne de droite, lignes 25-49 *
International Conference on Acoustics, Speech, and Signal Processing, Albuquerque, 3-6 avril 1990, vol. 4, IEEE, (New York, US); M. Antonini et al.: "Image coding using vector quantization in the wavelet transform domain", pages 2297-2300, voir abrégé, pages 2299-2300, paragraphe II (cité dans la demande) *
International Conference on Acoustics, Speech, and Signal Processing, Tokyo, 7-11 avril 1986, vol. 1, IEEE (New York, NY, US); S.E. Elnahas et al.: "Hybrid interframe coding of video signals with backward-acting motion detection", pages 165-167, voir abrégé *
Patent Abstracts of Japan, vol. 12, no. 150 (E-606), 10 mai 1988, & JP,A, 62264764 (NIPPON TELEGR. & TELEPH. CORP.) 17 novembre 1987, voir abrégé; figure *
Signal Processing V, Eusipco, 90, 1990, Elsevier Science Publishers, B.V. (Amsterdam, NL); T. Ebrahimi et al.: "Sequence coding by Gabor decomposition", pages 769-772, voir l'abrégé (cité dans la demande) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800684A1 (en) * 1995-10-26 1997-10-15 Motorola, Inc. Method and device for encoding/decoding a displaced frame difference
EP0800684A4 (en) * 1995-10-26 1998-03-25 Motorola Inc Method and device for encoding/decoding a displaced frame difference
WO1997039586A1 (en) * 1996-04-15 1997-10-23 Faroudja, Yves, C. Universal video disc record and playback employing motion signals for high quality playback of non-film sources
US5754248A (en) * 1996-04-15 1998-05-19 Faroudja; Yves C. Universal video disc record and playback employing motion signals for high quality playback of non-film sources
WO2001047277A1 (en) * 1999-12-20 2001-06-28 Sarnoff Corporation Scalable video encoding
US6907073B2 (en) 1999-12-20 2005-06-14 Sarnoff Corporation Tweening-based codec for scaleable encoders and decoders with varying motion computation capability
CN104350746A (en) * 2012-05-31 2015-02-11 汤姆逊许可公司 Image quality measurement based on local amplitude and phase spectra

Similar Documents

Publication Publication Date Title
EP0448491B1 (en) Method of coding and transmitting digital images of an image sequence with at least two quality levels and corresponding devices
PodilChuk et al. Three-dimensional subband coding of video
KR100664928B1 (en) Video coding method and apparatus thereof
EP0734164B1 (en) Video signal encoding method and apparatus having a classification device
US5097331A (en) Multiple block-size transform video coding using an asymmetric sub-band structure
EP0857392B1 (en) Overlapping block zerotree wavelet image coder
EP1839442B1 (en) Device and method for scalably encoding and decoding an image data stream, a signal, computer program and an adaptation module for a corresponding image quality
EP0791273B1 (en) Hybrid waveform and model-based encoding and decoding of image signals
KR20060027795A (en) Hybrid video compression method
IE902321A1 (en) A method of processing video image data for use in the¹storage or transmission of moving digital images
US20050163217A1 (en) Method and apparatus for coding and decoding video bitstream
KR100755689B1 (en) Method for video coding and decoding with hierarchical temporal filtering structure, and apparatus for the same
US20060013312A1 (en) Method and apparatus for scalable video coding and decoding
de Queiroz et al. Nonexpansive pyramid for image coding using a nonlinear filterbank
EP0937291B1 (en) Prediction method and device with motion compensation
EP0668004B1 (en) Method and apparatus for rate reduction in image recording
FR2670348A1 (en) IMAGE ENCODING DEVICE BELOW IMAGE SEQUENCE, LINING LINES BEFORE MATHEMATICAL TRANSFORMATION, IMAGE TRANSMISSION SYSTEM, RECEIVER AND CORRESPONDING ENCODING METHOD.
US5629737A (en) Method and apparatus for subband coding video signals
KR20050075578A (en) Scalable video encoding method supporting closed-loop optimization and apparatus thereof
WO1993002526A1 (en) Method for compressing digital image sequences
FR2597282A1 (en) Method of quantization in a coding by transformation for the transmission of image signals
FR2654285A1 (en) SYSTEM FOR COMPRESSING DIGITAL IMAGES BELONGING TO AN IMAGE SEQUENCE WITH ADAPTIVE QUANTIFICATION BASED ON PSYCHOVISUAL INFORMATION.
EP0724812B1 (en) Controlled-throughput interframe coding method and device for vcr image recording
Scotton et al. A low complexity video subband coder for ATM
KR100577364B1 (en) Adaptive Interframe Video Coding Method, Computer Readable Medium and Device for the Same

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IT LU MC NL SE

ENP Entry into the national phase

Ref document number: 2091250

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: CA

ENP Entry into the national phase

Ref country code: CA

Ref document number: 2091250

Kind code of ref document: A

Format of ref document f/p: F