Skip to contents

This function takes a string of terms (separated by commas) or a single term and, using `textrank_keywords()` from `textrank` package, filters data based on `pos_filter` and finds words connected to search terms.

Usage

fst_cn_search(data, concepts, pos_filter = NULL)

Arguments

data

A dataframe of text in CoNLL-U format, with optional additional columns.

concepts

String of terms to search for, separated by commas.

pos_filter

List of UPOS tags for inclusion, default is `NULL` to include all UPOS tags.

Value

Dataframe of n-grams containing searched terms.

Examples

con <- "kiusata, lyöminen, lyödä, potkia"
pf <- c("NOUN", "VERB", "ADJ", "ADV")
pf2 <- "NOUN, VERB, ADJ, ADV"
fst_cn_search(fst_child, concepts = con, pos_filter = pf)
#> # A tibble: 7 × 5
#>   keyword                       ngram  freq word1     word2     
#>   <chr>                         <int> <int> <chr>     <chr>     
#> 1 lyöminen-potkiminen               2     9 lyöminen  potkiminen
#> 2 lyödä-potkia                      2     7 lyödä     potkia    
#> 3 potkia-lyödä                      2     3 potkia    lyödä     
#> 4 lyödä-toinen                      2     2 lyödä     toinen    
#> 5 lyödä-sanoa                       2     2 lyödä     sanoa     
#> 6 töniminen-lyöminen-potkiminen     3     2 töniminen lyöminen  
#> 7 töniminen-lyöminen-potkiminen     3     2 lyöminen  potkiminen
fst_cn_search(fst_child, concepts = con, pos_filter = pf2)
#> # A tibble: 7 × 5
#>   keyword                       ngram  freq word1     word2     
#>   <chr>                         <int> <int> <chr>     <chr>     
#> 1 lyöminen-potkiminen               2     9 lyöminen  potkiminen
#> 2 lyödä-potkia                      2     7 lyödä     potkia    
#> 3 potkia-lyödä                      2     3 potkia    lyödä     
#> 4 lyödä-toinen                      2     2 lyödä     toinen    
#> 5 lyödä-sanoa                       2     2 lyödä     sanoa     
#> 6 töniminen-lyöminen-potkiminen     3     2 töniminen lyöminen  
#> 7 töniminen-lyöminen-potkiminen     3     2 lyöminen  potkiminen
fst_cn_search(fst_child, concepts = con)
#> # A tibble: 7 × 5
#>   keyword                       ngram  freq word1     word2     
#>   <chr>                         <int> <int> <chr>     <chr>     
#> 1 lyödä-potkia                      2     7 lyödä     potkia    
#> 2 lyöminen-potkiminen               2     4 lyöminen  potkiminen
#> 3 lyödä-toinen                      2     2 lyödä     toinen    
#> 4 töniminen-lyöminen-potkiminen     3     2 töniminen lyöminen  
#> 5 töniminen-lyöminen-potkiminen     3     2 lyöminen  potkiminen
#> 6 tietää-lyödä-potkia               3     2 tietää    lyödä     
#> 7 tietää-lyödä-potkia               3     2 lyödä     potkia