Como ler o texto Bangla de um arquivo de texto usando Python
A resposta curta é "Sim, claro que você pode se ele estiver lá!" mas pode haver alguns passos a tomar dependendo do arquivo de texto original.
- O arquivo de texto já está codificado em UTF-8, contém a linha de codificação e está em Bangla - você deve ser capaz de fazer apenas: text = open("filename".txt").readlines()
- li>O ficheiro de texto é outra codificação reconhecida que o UTF-8 para texto codificado em Bangla, contém a linha de codificação e está em Bangla - você ainda deve ser capaz de fazer: text = open("filename.txt").readlines()
- O ficheiro de texto já é texto codificado em UTF-8, não contém a linha de codificação e está em Bangla - você pode fazer text = open("filename.txt", encoding='utf-8').readlines()
- O ficheiro de texto é outra codificação reconhecida que o UTF-8 para texto codificado Bangla, não contém a linha de codificação e está em Bangla - você ainda deve ser capaz de fazer: text = open("filename.txt", encoding='utf-8').txt", encoding='the-encoding').readlines()
- Tetxt file is, in fact, not a text file but is a MS-Word or Open Office document - você terá que usar uma biblioteca apropriada ao formato real.
- O ficheiro de texto não é, de facto, um ficheiro de texto mas é um formato codificado em html, (ou possivelmente codificado em xml) - uma biblioteca como a Beautiful Soup deve vir em seu socorro.
- O ficheiro de texto contém uma representação fonética do Bangla em caracteres ASCII - você provavelmente terá de escrever uma tabela de consulta.
- Arquivo contém uma mistura de Bangla e outro texto em um dos formatos acima - você provavelmente precisará dividir o arquivo manualmente por idioma e então usar um dos acima ou lê-lo duas vezes e identificar quais bits estão em quais - se for UTF-8 o conjunto de caracteres pode ajudar se algo mais um corretor ortográfico puder ajudar.
- Arquivo não contém Bangla de jeito nenhum - finalmente temos um caso em que você não poderá ler Bangla a partir dele.
Artigos semelhantes
- Como ler o arquivo PDF linha por linha usando Python
- Qual é o melhor teclado Android para digitar Bangla?
- Ler e ouvir o mesmo texto permite uma melhor compreensão em oposição a ler ou ouvir individualmente?
- Quais são os caracteres estranhos na tela quando se abre um arquivo exe usando um editor de texto?