[ Corpus Tycho Brahe ]

terça-feira, 14 de outubro de 2008

Textos parseados disponíveis / Parsed texts available

Os textos que estavam em revisão estão disponíveis novamente. São eles:
  • [a_001] Aires (1705) - Reflexões sobre a Vaidade dos Homens
  • [a_003] Alorna (1802) - Memórias do Marquês da Fronteira e d'Alorna
  • [b_001] Barros (1675) - Vida do apostólico padre Antonio Vieira
Outros três textos serão parseados em breve e, após revisão, deverão ser disponibilizados dentro de alguns meses.

---------

The three parsed texts linked above are available again, after a deep revision. Three other texts will be submitted to the parser soon.

quinta-feira, 4 de setembro de 2008

Texto revisado (revised text)

A etiquetação morfológica do texto "História do Futuro", do Padre Antônio Vieira, foi revisada e está disponível para consulta na Busca Web.

The POS tagging of "História do Futuro", by Padre Antônio Vieira, is now revised and available in the Web POS Query.

terça-feira, 12 de agosto de 2008

Cadastro no Corpus (user registration)

Agora, ao informar os dados, o sistema verifica se já há um usuário para o email informado. Se houver, ele avisa e envia os dados de acesso para o email. Note que, em função da não verificação até aqui, pode ser que o usuário tenha feito mais de um cadastro para o mesmo email. Nestes casos, serão enviados os dados do primeiro cadastro.

Now the system checks whether there is a user already registered for the email address provided. If so, a message is sent to this email, with the access information (user and password). This is to avoid duplications of users data to the same email. Note: some email have more than one registration in our database. In this cases, the user will receive de access information of the first registration to the site.

sexta-feira, 1 de agosto de 2008

Muitas novidades!

Bem, muita coisa aconteceu depois da última postagem. Vou tentar resumir a ópera, apontando as atualizações mais importantes. O hospedagem do sítio do Projeto Tycho Brahe foi transferida da USP para a Unicamp, por questões técnicas e práticas. A versão que agora está no ar contém diversas atualizações, entre elas: mais páginas traduzidas para o inglês, melhor controle da exibição de caracteres na tela, atualização de informações de participantes do projeto, inserção da versão modernizada do texto "Monarchia Lusitana" de António Brandão (1584), além de importantes melhoramentos na Busca Web e no cadastro de usuários.

Quanto à busca web, agora estão disponíveis todos os textos etiquetados não revisados, do corpus. Além disso, foi incluído mais um tipo de seleção de textos, aleatória, permitindo a seleção de qualquer conjunto de textos, incluindo a seleção de todos (revisados e não-revisados). Há também, agora, novas opções para buscas de etiquetas/palavras, que poderão ser pesquisadas por sua posição específica na sentença: primeira, segunda ou última. Isto ajudará em pesquisas por dados relativos a ordem de constituintes. Em caso de dúvidas, recorram ao guia, na página na busca.

Com relação ao cadastro de usuários, o processo de cadastro voltou a funcionar corretamente, exibindo a confirmação na tela e enviando o email para o usuário, com os dados de acesso. Além disso, foi incluída uma nova opção, na tela de cadastro, que permite ao usuário recuperar seu login/senha, caso tenha esquecido. Para isso, ele precisará informar o email ou o nome de usuário que havia inserido no momento do cadastramento.

Bom, este é o resumo de tudo. Para conferirem com mais detalhes, sintam-se à vontade para navegar pelo sítio!




We have a lot of new features at our website. We moved hosting from USP to Unicamp and the newer version of the website is now more functional. For example, we have more pages translated to English, fixed character encoding, updated participants information, the modernized version of "Monarchia Lusitana" by António Brandão (1584), and updates to the POS Web Query and to the user registration page.

The POS Web Query now has a full list of unrevised tagged texts, a new text selection option, where you can choose freely between them, and new ways to search for tags/words, with which you can get sentences where the tag/word is at one of three positions in the sentence: first, second or last. It is very useful to query for sentences with noncanonical ordering.

For the users of the corpus, it is now possible to retrieve a forgotten username or password. In order to do that, you just have to go to the registration page and enter the username or email you entered during your last registration. The system will send the access data to your email.

Well, that's it. Feel free to browse our website for details!

terça-feira, 22 de abril de 2008

Busca Web: pré-definições para a busca manual

Foi adicionada uma nova funcionalidade para a busca web, no modo manual. Agora, o usuário terá a opção de selecionar uma pré-definição que agregue um conjunto de etiquetas (por exemplo, Verbos Flexionados), da mesma forma que já é possível fazer na busca gráfica. Para isto, enquanto estiver digitando a busca manual, o usuário pode a qualquer momento tecla Alt + P e o sistema exibirá uma pequena janela para que o usuário faça sua seleção. Caso mude de idéia basta teclar ESC para fechar a janela.

A new feature is now available for the web query, in the manual mode. With it the user can select a predefinition which is a set of related tags (like Inflected Verb), in the same way it is already done in the graphical mode. To select a predefinition, the user must press Alt + P while writing the query. A small window will apear so the user can select it. To cancel the selection, just press the ESC key.

sábado, 12 de abril de 2008

Busca Web: seleção de etiquetas

A seleção de etiquetas ficou mais simples: a partir da agora, para selecionar ou deselecionar uma etiqueta gráfica, basta dar um clique com o mouse sobre a mesma (antes era preciso pressionar a tecla 'S' durante o clique). Quando selecionada, ela ficará com as bordas tracejadas em vermelho. Esperamos que isto facilite a usabilidade da busca.

The tag selection has become easier: from now on, you just have to click over the tag you want to select or unselect (until now, it was also needed to hold the 'S' key while clicking). When selected, the tag will show dashed and red borders. We hope this subtle change to improve the usability of the web query.

quarta-feira, 9 de abril de 2008

Busca Web: busca por critérios

A busca web agora disponibiliza a opção de buscar por alguns critérios do catálogo, a saber, por Gênero Textual e por Século. Com estas opções, acreditamos aumentar ainda mais os benefícios desta ferramenta, já que o usuário poderá, por exemplo, verificar o percurso histórico de um dado fenômeno. Acesse a busca aqui.

Now, it is possible to search the POS files by some of the catalog criteria, i.e., by Genre and by Century. With these new options we hope to increase the power of this tool, as the user can, for example, track the historical path of a specific aspect. You can access the web query here.

Sintaxe / Syntax

As versões com análise sintática dos dois textos - a_001 e a_003 -, até então disponíveis para acesso, foram desabilitadas para que passem por um processo de revisão. O texto mais recentemente submetido ao parser - b_001 - também está em processo de revisão. Não há previsão de finalização, mas esperamos terminar o mais rapidamente possível.

The parsed versions of the texts a_001 and a_003 are no longer available for access. They are under revision now. This is temporary, but we have no estimate date for reenabling the access to them. The most recent parsed text - b_001 - is also under revision. We hope to finish it as soon as possible.

quarta-feira, 2 de abril de 2008

Novo texto disponível para busca

Foi inclusa uma versão etiquetada não-revisada do texto "História do futuro", de Antônio Vieira, que no corpus tem o código v_003. Esta versão pode ser consultada, através da Busca Web. Fiquem à vontade para nos informar a respeito de erros de etiquetagem encontrados no texto. No mais, há várias inclusões e melhorias feitas nas páginas do Projeto Tycho Brahe em geral, que em breve deverão estar disponíveis.

Now, there is an unrevised tagged version of "História do futuro", by Antônio Vieira (code v_003 in the catalogue). This version can be consulted with the web POS Query. Feel free to inform us about any mistakes (wrong tags) found in the text. Furthermore, there are several updates to the overall web pages of Tycho Brahe Project that we hope soon will be available online.

quarta-feira, 27 de fevereiro de 2008

Nova funcionalidade na Busca Web

Agora as buscas web contam com uma pequena, mas importante, melhoria: a consideração da vírgula para efeitos de buscas contendo relações de precedência imediata. A questão é que, muitas vezes, uma busca, por exemplo, de um Verbo seguido imediatamente de um Nome, trazia resultados tais como "... foram, nós ...". A partir de agora, para evitar tais retornos, o usuário pode marcar o flag "Considerar a vírgula em relações de precedência imediata".

sexta-feira, 15 de fevereiro de 2008

Texto 'a_003' (Alorna): versão etiquetada

Foi incluída uma versão etiquetada do texto "Memórias do Marquês da Fronteira e d'Alorna" (a_003), tanto para visualização, quanto para consulta via CorpusSearch. O catálogo dinâmico e as listas ordenadas também foram atualizados, para incluir esta informação. Agora são 25 textos etiquetados morfologicamente e revisados, disponíveis no corpus.

Atualização da página do projeto

Foi feita a atualização nas página do projeto, acessíveis a partir daqui, principalmente com relação ao refinamento do layout e do código HTML das páginas. Foram feitas algumas poucas atualizações de conteúdo, aspecto que será focado a partir de agora. Tanto a seção em português como a em inglês estão atualizadas.

quarta-feira, 13 de fevereiro de 2008

Relatório FAPESP 2007 (1)

Começa a ser disponibilizado no sítio do projeto, o relatório relativo ao ano de 2007. Inicialmente, um resumo da produção bibliográfica, bem como alguns textos completos, podem ser acessados aqui.

Workshop: “Variação e gramática: diacronia e aquisição”

Este workshop ocorrerá no IEL/Unicamp, entre os dias 25 e 28 de Fevereiro, relacionado ao projeto temático Padrões prosódicos, fixação de parâmetros e mudança linguística. O evento contará com a participação de vários pesquisadores, de diferentes instituições. Para mais detalhes veja a programação aqui.

quarta-feira, 23 de janeiro de 2008

Consulta aos textos etiquetados: bug

Foi corrigido um problema na consulta, que não permitia o uso de etiquetas do tipo "VB-R!CL", em função do caracter "!", que é utilizado pelo CorpusSearch para a função de negação em consultas. Em função desta limitação, a partir de agora, este caracter é substituído automaticamente por "*", durante o processamento, permitindo que a busca seja executada.

Textos recentemente incluídos

Seis novos textos foram incluídos no corpus, nos últimos dois meses. São eles:

Alencar, José de, Iracema, lenda do Ceará [ a_006 ]
Orta, Teresa Margarida da Silva e, Aventuras de Diófanes [ o_002 ]
Souza, Antônio Gonçalves Teixeira e, Maria ou a menina roubada [ s_003 ]
Vários, Cartas Brasileiras [ va_004 ]
Vários, Atas dos Brasileiros [ va_002 ]
Vários, Atas dos Africanos [ va_003 ]

Catálogo dinâmico

O catálogo dinâmico do Corpus Tycho Brahe foi atualizado, incluindo a categoria "Atas", em "Gênero", e também atualizando todas as listagens para conter os novos textos inseridos nos últimos dois meses. Além disso, houve um refinamento das informações sobre as datas de nascimento dos autores.