SELMA Output

Models, Component & Platforms, Prototypes and Data

As part of SELMA’s efforts to increase resources and tools available for (extreme-large) language technology, we have released many of the corpora, components and prototypes created / used during the project.

Table of Contents

Models, Components & Platforms

#	Components	Technology	Release Level	Availability
1	Speech Recognition French	ASR	Public domain	Link
2	Speech Recognition Urdu	ASR	Public domain	Link
3	Speech Recognition Latvian	ASR	Project internal
4	Speech Recognition German	ASR	Public domain	Link
5	M2M-100 Machine Translation	Speech MT	Project internal
6	Textless speech-to-speech translation French-to-English	Speech MT	Public domain	Link
7	English Monolingual Abstractive Summarization	News Summarization	For research (only)	Link
8	Crosslingual Abstractive Summarization	News Summarization	For research (only)
9	Crosslingual Multidocument Extractive Summarization	News Summarization	For research (only)	Link
10	Speech Summarization	News Summarization	For research (only)	Link
11	PiniTree Ontology Editor	NER & NEL	Project internal
12	Multilingual Hierarchical nested NER	NER & NEL	Project internal
13	Entity representations for 20M Wikidata entities	NER & NEL	Project internal
14	Entity Linking	NER & NEL	Project internal
15	Automatic Post-Editing	(Automatic) Post Editing	Public domain	Link
16	Speech2Text PostEditor From User Feedback (M-PHANTOM)	(Automatic) Post Editing	For research (only)
17	Online Crosslingual Clustering	Clustering	For research (only)
18	Multilingual IPTC Topic Classification	Topic Detection	Project internal
19	Wikipedia classification	Topic Detection	Project internal
20	Text To Speech for Latvian	Speech Synthesis	Project internal
21	Text To Speech for Brazilian	Speech Synthesis	Public domain	Link
22	Text To Speech for Urdu	Speech Synthesis	Public domain	Link
23	Story Segmentation	Story Segmentation	Public domain	Link
24	Punctuation and Casing Recovery	Punctuation & Truecasing	Public domain	Link
25	Speaker Diarization	Speaker Diarization	Project internal
26	Speaker Recognition (Identification)	Speaker Recognition	Public domain	Link
27	Graph Orchestrator (Maestro)	Graph Orchestrator platform (Maestro)	Project internal
28	Monitio platform	Monitio platform (UC1)	Project internal
29	plain X platform	plain X platform (UC2)	Project internal
30	Use Case 0 – SELMA Open Source Platform	SELMA OSS platform (UC0)	Public domain	Link (GitHub)

Prototypes

#	Prototypes	Main objective	Release Level	Availability
1	Podcast Creator	Create a news podcast on the fly	Public	Link (GitHub)
2	Diarization	Create diarization and make speech recognition	Project internal
3	Diversity Monitoring	Analyze Binary Gender, Age and Regional Origin	Project internal
3	NLP Benchmarking	Compare ASR, MT & VO	Public domain
4	Summarizer	Summarize Text	Public	Link (GitHub)
5	Voices	Generate Speech	Public	Link (GitHub)
6	Avatar Creator	Create adaptions with animated avatar	Project internal

Data

#	Data	Volume	Main Purpose	Release Level	Availability
1	Turkish		Text data for NER	Project internal
2	Dutch		Text data for NER	Project internal
3	Ukrainian	300 docs	Text data for NER	Project internal
4	Russian	160 docs	Text data for NER	Project internal
5	Latvian	740 docs	Text data for NER	Public domain	Link (Clarin)
6	Amharic	10 hrs	Low resourced scripts for ASR	Project internal
7	Bengali		Low resourced scripts for ASR	Project internal
8	Urdu	10 hrs	Audio News Training data for Voices	Project internal
9	Brazilian Portuguese	96 hrs	Audio News Training data for Voices	Project internal
10	SELMA Foundation (19 lang.)	15000 hrs	AV SELMA Foundation Model for ASR	Project internal
11	Wikipedia / Wikidata	40 Mio docs	Text and labes for Enitity representation	Project internal
12	Monitio News	300.000 / day	Datastream	Project internal