Script feito com python para remover todas as tags HTML, deixando apenas o texto puro. Com suporte parcial a entidades do html, podendo ainda salvar o conteúdo final em um arquivo de texto!
re
- html: str = recebe o HTML no formato de strings!
- strip: bool = remove todos os espaços antes e depois dos caracteres! (por padrão "True")
- save_file: bool = Cria um arquivo de texto com o resultado final! (por padrão "False")
html = """<p>>>>O <b>sistema circulatório</b> é o conjunto de órgãos responsáveis pela distribuição
de nutrientes para as <a href="/wiki/C%C3%A9lula" title="Célula">células</a> e coleta de
suas excretas metabólicas para serem eliminadas por órgãos excretores. Os órgãos que fazem
parte do sistema circulatório são:</p>"""
print(removedor_tags_html(html))
>>> O sistema circulatório é o conjunto de órgãos responsáveis pela distribuição de nutrientes para as células e coleta de suas excretas metabólicas para serem eliminadas por órgãos excretores. Os órgãos que fazem parte do sistema circulatório são:
Criado com ❤️ e python por Paulo Daniel (TrexPD)!