TweetAnalyzer.java example

Explorer

twitter-tools-master
- twitter-tools-core
  - src
    - attic
      - java
        cc
        twittertools
        corpus
        data
        TSVStatusBlockReader.java
        TSVStatusCorpusReader.java
        download
        AsyncJsonStatusBlockCrawler.java
        VerifyJsonStatusBlockCrawl.java
    - main
      - java
        cc
        twittertools
        corpus
        data
        HTMLStatusExtractor.java
        JsonStatusBlockReader.java
        JsonStatusCorpusReader.java
        Status.java
        StatusStream.java
        demo
        ReadStatuses.java
        download
        AsyncEmbeddedJsonStatusBlockCrawler.java
        AsyncHTMLStatusBlockCrawler.java
        index
        ExtractTermStatisticsFromIndex.java
        ExtractTweetidsFromCollection.java
        ExtractTweetidsFromIndex.java
        IndexStatuses.java
        LowerCaseEntityPreservingFilter.java
        TweetAnalyzer.java
        search
        TrecTopic.java
        TrecTopicSet.java
        api
        RunQueriesBaselineThrift.java
        RunQueriesThrift.java
        SearchStatusesThrift.java
        TResultComparable.java
        TrecSearchHandler.java
        TrecSearchThriftClient.java
        TrecSearchThriftLoadGenerator.java
        TrecSearchThriftServer.java
        local
        RunQueries.java
        SearchStatuses.java
        stream
        GatherStatusStream.java
        thrift
        gen
        TQuery.java
        TResult.java
        TrecSearch.java
        TrecSearchException.java
        util
        ExtractSubcollection.java
        VerifySubcollection.java
    - test
      - java
        cc
        twittertools
        download
        FetchStatusTest.java
        index
        TokenizationTest.java
        search
        TrecTopicSetTest.java
- twitter-tools-hadoop
  - src
    - main
      - java
        cc
        twittertools
        hadoop
        Example.java
        hbase
        LoadWordCount.java
        WordCountDAO.java
        piggybank
        ConvertCreatedAtToEpoch.java
        GetLatitude.java
        GetLongitude.java
        IsMap.java
        udf
        GetDate.java
        GetInterval.java
        LuceneTokenizer.java
- twitter-tools-rm3
  - src
    - main
      - java
        edu
        illinois
        lis
        document
        FeatureVector.java
        feedback
        FeedbackModel.java
        FeedbackRelevanceModel.java
        query
        GQueries.java
        GQueriesJsonImpl.java
        GQuery.java
        TrecTemporalTopic.java
        TrecTemporalTopicSet.java
        rerank
        SearchReranker.java
        TResultComparator.java
        search
        RunQueries.java
        searchsource
        IndexWrapperMicroblogApi.java
        utils
        ExtractGqueriesFromTrecFormat.java
        KeyValuePair.java
        ListUtils.java
        LuceneQuery.java
        ParameterBroker.java
        Qrels.java
        Scorable.java
        ScorableComparator.java
        Stopper.java
- twitter-tools-ttgbaseline
  - src
    - edu
      - gslis
        ttg
        clusters
        Cluster.java
        Clusters.java
        clusterers
        SimpleJaccardClusterer.java
        jaccard
        JaccardStore.java
        main
        RunTTGBaseline.java
        searchers
        SimpleSearcher.java

/**
 * Twitter Tools
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package cc.twittertools.index;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.WhitespaceTokenizer;
import org.apache.lucene.analysis.en.PorterStemFilter;
import org.apache.lucene.util.Version;

import com.google.common.base.Preconditions;

public final class TweetAnalyzer extends Analyzer {
  private final Version matchVersion;
  private final boolean stemming;

  public TweetAnalyzer(Version matchVersion, boolean stemming) {
    this.matchVersion = Preconditions.checkNotNull(matchVersion);
    this.stemming = stemming;
  }

  public TweetAnalyzer(Version matchVersion) {
    this(matchVersion, true);
  }

  @Override
  protected TokenStreamComponents createComponents(final String fieldName, final Reader reader) {
    Tokenizer source = new WhitespaceTokenizer(matchVersion, reader);
    TokenStream filter = new LowerCaseEntityPreservingFilter(source);

    if (stemming) {
      // Porter stemmer ignores words which are marked as keywords
      filter = new PorterStemFilter(filter);
    }
    return new TokenStreamComponents(source, filter);
  }

}