LowerCaseNormalizeCleaner.java example

Explorer

Duke-master
- duke-core
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        AbstractCmdlineTool.java
        Cleaner.java
        CompactRecord.java
        Comparator.java
        ConfigLoader.java
        ConfigWriter.java
        Configuration.java
        ConfigurationImpl.java
        DataSource.java
        Database.java
        DatabaseStatistics.java
        DebugCompare.java
        Duke.java
        DukeConfigException.java
        DukeException.java
        DummyLogger.java
        EquivalenceClassDatabase.java
        InMemoryClassDatabase.java
        InMemoryLinkDatabase.java
        JDBCEquivalenceClassDatabase.java
        JDBCLinkDatabase.java
        JNDILinkDatabase.java
        Link.java
        LinkDatabase.java
        LinkKind.java
        LinkSource.java
        LinkStatus.java
        Logger.java
        ModifiableRecord.java
        Processor.java
        Property.java
        PropertyImpl.java
        RDBMSLinkDatabase.java
        Record.java
        RecordImpl.java
        RecordIterator.java
        RecordSearch.java
        StatementHandler.java
        cleaners
        AbstractRuleBasedCleaner.java
        ChainedCleaner.java
        DigitsOnlyCleaner.java
        FamilyCommaGivenCleaner.java
        GenericValueCleaner.java
        HTMLCleaner.java
        LowerCaseNormalizeCleaner.java
        MappingFileCleaner.java
        NorwegianAddressCleaner.java
        NorwegianCompanyNameCleaner.java
        PersonNameCleaner.java
        PhoneNumberCleaner.java
        RegexpCleaner.java
        StripNontextCharacters.java
        Transform.java
        TrimCleaner.java
        comparators
        DiceCoefficientComparator.java
        DifferentComparator.java
        ExactComparator.java
        GeopositionComparator.java
        JaccardIndexComparator.java
        JaroWinkler.java
        JaroWinklerTokenized.java
        Levenshtein.java
        LongestCommonSubstring.java
        Matcher.java
        MetaphoneComparator.java
        NorphoneComparator.java
        NumericComparator.java
        PersonNameComparator.java
        QGramComparator.java
        SoundexComparator.java
        WeightedLevenshtein.java
        databases
        AbstractBlockingDatabase.java
        AbstractKeyFunction.java
        Bucket.java
        InMemoryBlockingDatabase.java
        InMemoryDatabase.java
        InMemoryKeyValueStore.java
        KeyFunction.java
        KeyValueDatabase.java
        KeyValueStore.java
        datasources
        CSVDataSource.java
        Column.java
        ColumnarDataSource.java
        InMemoryDataSource.java
        JDBCDataSource.java
        JNDIDataSource.java
        NTriplesDataSource.java
        RecordBuilder.java
        SparqlDataSource.java
        examples
        CapitalCleaner.java
        CountryNameCleaner.java
        genetic
        Aspect.java
        ComparatorAspect.java
        ConsoleOracle.java
        Driver.java
        ExemplarsTracker.java
        FloatAspect.java
        GeneticAlgorithm.java
        GeneticConfiguration.java
        GeneticPopulation.java
        HighProbabilityAspect.java
        LinkFileOracle.java
        LowProbabilityAspect.java
        Oracle.java
        Pair.java
        ThresholdAspect.java
        matchers
        AbstractMatchListener.java
        ClassDatabaseMatchListener.java
        LinkDatabaseMatchListener.java
        MatchListener.java
        PrintMatchListener.java
        TestFileListener.java
        utils
        CSVReader.java
        CommandLineParser.java
        DefaultRecordIterator.java
        JDBCUtils.java
        LinkDatabaseUtils.java
        LinkFileWriter.java
        NTriplesParser.java
        NTriplesWriter.java
        ObjectUtils.java
        PropertyUtils.java
        SparqlClient.java
        SparqlResult.java
        StringUtils.java
        TestFileUtils.java
        Utils.java
        XMLPrettyPrinter.java
        YesNoConsole.java
    - test
      - java
        no
        priv
        garshol
        duke
        CompactRecordTest.java
        JDBCClassDatabaseTest.java
        JDBCLinkDatabaseTest.java
        cleaners
        DigitsOnlyCleanerTest.java
        FamilyCommaGivenCleanerTest.java
        HTMLCleanerTest.java
        LowerCaseNormalizeCleanerTest.java
        NorwegianAddressCleanerTest.java
        NorwegianCompanyNameCleanerTest.java
        PersonNameCleanerTest.java
        PhoneNumberCleanerTest.java
        RegexpCleanerTest.java
        TrimCleanerTest.java
        comparators
        DiceCoefficientComparatorTest.java
        DifferentComparatorTest.java
        GeopositionComparatorTest.java
        JaccardIndexComparatorTest.java
        JaroWinklerTest.java
        LevenshteinTest.java
        LongestCommonSubstringTest.java
        MetaphoneComparatorTest.java
        NorphoneComparatorTest.java
        NumericComparatorTest.java
        PersonNameComparatorTest.java
        QGramComparatorTest.java
        SoundexComparatorTest.java
        WeightedLevenshteinTest.java
        databases
        DatabaseTest.java
        InMemoryBlockingDatabaseTest.java
        InMemoryDatabaseTest.java
        KeyValueDatabaseTest.java
        PersistentDatabaseTest.java
        PriorityQueueTest.java
        datasources
        CSVDataSourceTest.java
        InMemoryDataSourceTest.java
        JDBCDataSourceTest.java
        NTriplesDataSourceTest.java
        SparqlDataSourceTest.java
        genetic
        ActiveLearningTest.java
        ComparatorAspectTest.java
        GeneticConfigurationTest.java
        integration
        IT.java
        matchers
        InMemoryLinkDatabaseMatchListenerTest.java
        LinkDatabaseMatchListenerTest.java
        test
        ClassDatabaseTest.java
        ConfigLoaderTest.java
        ConfigWriterTest.java
        ConfigurationTest.java
        DeduplicatorTest.java
        InMemoryClassDatabaseTest.java
        InMemoryLinkDatabaseTest.java
        RecordImplTest.java
        utils
        CSVReaderTest.java
        CommandLineParserTest.java
        LinkDatabaseUtilsTest.java
        LinkFileWriterTest.java
        NTriplesParserTest.java
        NTriplesWriterTest.java
        ObjectUtilsTest.java
        PropertyUtilsTest.java
        SparqlClientTest.java
        StringUtilsTest.java
        TestUtils.java
- duke-es
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        databases
        es
        ElasticSearchDatabase.java
        StorageType.java
    - test
      - java
        no
        priv
        garshol
        duke
        databases
        es
        DocumentRecordTest.java
        ElasticSearchConfigLoaderTest.java
- duke-json
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        datasources
        JsonDataSource.java
    - test
      - java
        no
        priv
        garshol
        duke
        datasources
        JsonDataSourceTest.java
- duke-lucene
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        databases
        DocumentRecord.java
        GeoProperty.java
        LuceneDatabase.java
    - test
      - java
        no
        priv
        garshol
        duke
        databases
        DocumentRecordTest.java
        ExtraLuceneDatabaseTest.java
        GeoSearchingTest.java
        LuceneConfigLoaderTest.java
        LuceneDatabaseTest.java
        PersistentLuceneDatabaseTest.java
        RecordLinkTest.java
- duke-mapdb
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        databases
        MapDBBlockingDatabase.java
    - test
      - java
        no
        priv
        garshol
        duke
        databases
        MapDBBlockingDatabaseTest.java
        PersistentMapDBBlockingDatabaseTest.java
- duke-mongodb
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        datasources
        MongoDBDataSource.java
- duke-server
  - src
    - main
      - java
        no
        priv
        garshol
        duke
        server
        BasicTimer.java
        CommonJTimer.java
        DukeController.java
        DukeTimer.java
        StatusServlet.java


package no.priv.garshol.duke.cleaners;

import java.text.Normalizer;

import no.priv.garshol.duke.Cleaner;

/**
 * A cleaner which removes leading and trailing whitespace, normalized
 * internal whitespace, lowercases all characters, and (by default)
 * strips accents. This is the most commonly used cleaner for textual
 * data.
 */
public class LowerCaseNormalizeCleaner implements Cleaner {
  private boolean strip_accents = true;

  /**
   * Controls whether accents are stripped (that is, "é" becomes "e",
   * and so on). The default is true.
   */
  public void setStripAccents(boolean strip_accents) {
    this.strip_accents = strip_accents;
  }
  
  public String clean(String value) {
    if (strip_accents) 
      // after this, accents will be represented as separate combining
      // accent characters trailing the character they belong with. the
      // next step will strip them out.
      value = Normalizer.normalize(value, Normalizer.Form.NFD);
    
    char[] tmp = new char[value.length()];
    int pos = 0;
    boolean prevws = false;
    for (int ix = 0; ix < tmp.length; ix++) {
      char ch = value.charAt(ix);

      // we make an exception for \u030A (combining ring above) when
      // following 'a', because this is a Scandinavian character that
      // should *not* be normalized
      if (ch == 0x030A && (value.charAt(ix - 1) == 'a' ||
                           value.charAt(ix - 1) == 'A')) {
        prevws = false;
        // this overwrites the previously written 'a' with 'aa'
        tmp[pos - 1] = '\u00E5';
        continue;
      }

      // if character is combining diacritical mark, skip it.
      if ((ch >= 0x0300 && ch <= 0x036F) ||
          (ch >= 0x1DC0 && ch <= 0x1DFF) ||
          (ch >= 0x20D0 && ch <= 0x20FF) ||
          (ch >= 0xFE20 && ch <= 0xFE2F))
        continue;

      // whitespace processing
      if (ch != ' ' && ch != '\t' && ch != '\n' && ch != '\r' &&
          ch != 0xA0 /* NBSP */) {
        if (prevws && pos != 0)
          tmp[pos++] = ' ';

        tmp[pos++] = Character.toLowerCase(ch);
        
        prevws = false;
      } else
        prevws = true;
    }
    return new String(tmp, 0, pos);
  }
}