Adivinhe o grupo

Nesta postagem descreverei como trabalhar com o classificador de texto fasttext.

Texto rápido – biblioteca de aprendizado de máquina para classificação de texto. Vamos tentar ensiná-la a identificar uma banda de metal pelo título da música. Para fazer isso, usamos aprendizagem supervisionada usando um conjunto de dados.

Vamos criar um conjunto de dados de músicas com nomes de grupos:

__label__metallica fuel
__label__metallica escape
__label__black_sabbath gypsy
__label__black_sabbath snowblind
__label__black_sabbath am i going insane
__label__anthrax anthrax
__label__anthrax i'm alive
__label__anthrax antisocial
[и т.д.]

Формат обучающей выборки:

Обучим fasttext и сохраним модель:
model.save_model("model.bin")


Carregue o modelo treinado e peça para identificar o grupo pelo nome da música:

predictResult = model.predict("Bleed")
print(predictResult)
В результате мы получим список классов на которые похож данный пример, с указанием уровня похожести цифрой, в нашем случае похожесть названия песни Bleed на одну из групп датасета.

Для того чтобы модель fasttext умела работать с датасетом выходящим за границы обучающей выборки, используют режим autotune с использованием файла валидации (файл тест). Во время автотюна fasttext подбирает оптимальные гиперпараметры модели, проводя валидацию результата на выборке из тест файла. Время автотюна ограничивается пользователем в самостоятельно, с помощью передачи аргумента autotuneDuration.

Пример создания модели с использованием файла тест:


Источники
https://fasttext.cc

https://gosha20777.github.io/tutorial/2018/04/12/fasttext-for-windows
Исходный код
https://gitlab.com/demensdeum/MachineLearning/-/tree/master/6bandClassifier
					
	
	


	
		Posted bydemensdeumDecember 1, 2020December 16, 2024Posted inTechie, TutorialsTags:fasttext, machine learning	


			
						
							

			
			
				
					Published by demensdeum				
			


			
								
					View all posts by demensdeum

Источники

Исходный код

Published by demensdeum

Leave a Comment