Browse Prior Art Database

CORPORA DEDUPLICATION FOR CLASSIFIER TRAINING

IP.com Disclosure Number: IPCOM000238937D
Publication Date: 2014-Sep-25
Document File: 7 page(s) / 182K

Publishing Venue

The IP.com Prior Art Database

Abstract

A deduplication system removes training data repetition in data sets that are utilized to train classifiers. The deduplication system receives a data corpus including media items. Further, the deduplication system identifies matching segments between pairs of media streams of a large set of media items in the data corpus. Subsequently, based on identifying the matching segments, the deduplication system removes the matching segments from the received data corpus. Further, the deduplication system generates a deduplicated data corpus by removing media items that do not meet a threshold length. The deduplication system can then provide the deduplicated data corpus as training data for a classifier.

This text was extracted from a PDF file.
This is the abbreviated version, containing approximately 42% of the total text.

Page 01 of 7

CORPORA DEDUPLICATION FOR CLASSIFIER TRAINING 

ABSTRACT 

     A deduplication system removes training data repetition in data sets that are utilized to train  classifiers. The deduplication system receives a data corpus including media items. Further, the  deduplication system identifies matching segments between pairs of media streams of a large set of  media items in the data corpus. Subsequently, based on identifying the matching segments, the  deduplication system removes the matching segments from the received data corpus. Further, the  deduplication system generates a deduplicated data corpus by removing media items that do not meet a  threshold length. The deduplication system can then provide the deduplicated data corpus as training  data for a classifier.  

 

PROBLEM STATEMENT 

    When gathering a corpus of audio and video data to train a classifier, it can be difficult to avoid  duplication in the training data set. One piece of training data can match a second piece of the training  data. The probability of duplicate data increases as training data sets become larger in size. Many  algorithms for training classifiers are sensitive to duplicate material in the training data, therefore, having a  training set free from duplicate material is needed to optimally train a classifier. An mechanism to clean a  training data set of duplicate material before using it to train a classifier is described. 

          
  
DEDUPLICATION SYSTEM 

1 

  


Page 02 of 7

    The systems and techniques described in this disclosure relate to a deduplication system that  removes duplicate data in a data corpus. The deduplication system can be implemented for use in an  Internet, an intranet, or another client and server environment. The deduplication system can be  implemented to clean a training data set of duplicate data before the training data set is used to train a  classifier. 

    Fig. 1 illustrates an example method 100 to remove duplicate data in a data corpus. The method  100 can be performed by the deduplication system. An example deduplication system 200 is illustrated  in Fig. 2. The deduplication system 200 can be implemented across client and server environment. The  deduplication system 200 may include various modules such as a matching module 206 and a segment  removal module 208. The deduplication system 200 may also include a classifier 214.  

    The matching module 206 receives a data corpus 204 (block 102). The data corpus 204 can  include a set of media items. The media items can include one or more correlated streams of audio data  and video data. The...