FACE ANALYSIS METHOD FOR CONTROLLING DEVICES - UNIV ESTADUAL CAMPINAS UNICAMP

Title:

FACE ANALYSIS METHOD FOR CONTROLLING DEVICES

Document Type and Number:

WIPO Patent Application WO/2018/090109

Kind Code:

Abstract:

The present invention relates to a face analysis method for controlling electronic and mechanical devices, in which face points are extracted and classified using a 3D camera (depth camera) when said points form key facial expressions such as smile, half-smile, raised eyebrows, lowered eyebrows, tongue out, a kiss, wrinkled nose, blown-out cheeks and the like. Said classification of facial expressions occurs in real time, and same are translated into commands for controlling equipment, such as a wheelchair.

More Like This:

WO/2010/053402	COORDINATE INPUTTING DEVICE FOR THE REMOTE CONTROL OF A COMPUTER BY A PHYSICALLY HANDICAPPED PERSON
JP3016144	[Title of Invention] Self-help device for meals
WO/2021/062016	PERIPHERAL BRAIN-MACHINE INTERFACE SYSTEM VIA VOLITIONAL CONTROL OF INDIVIDUAL MOTOR UNITS

Inventors:

PINHEIRO PAULO GURGEL (BR)
CARDOZO ELERI (BR)

Application Number:

PCT/BR2017/000136

Publication Date:

May 24, 2018

Filing Date:

November 17, 2017

Export Citation:

Click for automatic bibliography generation Help

Assignee:

UNIV ESTADUAL CAMPINAS UNICAMP (BR)
HOOBOX ROBOTICS TECNOLOGIA DO BRASIL LTDA ME (BR)

International Classes:

A61F4/00; G06T7/00; G06V10/00

Domestic Patent References:

WO2016061780A1

2016-04-28

Foreign References:

US8970348B1

2015-03-03

Other References:

ROHIN MITTAL ET AL.: "Autonomous Robot Control Using Facial Expressions", INTERNATIONAL JOURNAL OF COMPUTER THEORY AND ENGINEERING, vol. 4, no. 4, 1 August 2012 (2012-08-01), pages 631 - 635, XP055485062
RABIU, H. ET AL.: "3D facial expression recognition using maximum relevance minimum redundancy geometrical features", EURASIP J. ADV. SIGNAL PROCESS, 3 October 2012 (2012-10-03), pages 213-1 - 8, XP055485070
SOUKUPOVA, T. ET AL.: "Real-Time Eye Blink Detection using Facial Landmarks", 21ST COMPUTER VISION WINTER WORKSHOP, 5 February 2016 (2016-02-05), Slovenia, XP055485078, Retrieved from the Internet [retrieved on 20180207]
PINHEIRO, P.: "Smile, You Are Driving a Robotic Wheelchair Using Facial Expressions", HOO.BOX (PRESS RELEASE, 25 January 2016 (2016-01-25), Retrieved from the Internet [retrieved on 20180207]
INTEL CORPORATION: "RealSense Technology - SDK Design Guidelines", 2014, pages 1 - 57, XP055485091, Retrieved from the Internet [retrieved on 20180207]

Attorney, Agent or Firm:

DE LA CERDA, Ciro (BR)

Download PDF:

View/Download PDF PDF Help

Claims:

REIVINDICAÇÕES

1. Método de análise facial para controle de dispositivos, caracterizado pelo fato de extrair e classificar pontos faciais a partir de pontos formados por expressões faciais em tempo real e traduzida em comandos de controle, em que compreende as etapas de:

1) Aquisição de dados;

2) Aplicação de filtro de pontos;

3) Análise de expressões;

4) Configuração de perfil;

5) Envio ao dispositivo; e

6) Reconhecimento de fala ou de sequência de expressões faciais .

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato das expressões faciais serem preferencialmente do tipo sorriso, meio-sorriso, levantar de sobrancelhas, língua para fora, beijo, franzir do nariz, abaixar de sobrancelhas, bochechas infladas, piscada de olho e boca aberta.

3. Método, de acordo com a reivindicação 1, caracterizado pelo-fato de na etapa 3) analisar a geometria dos pontos e indicar se uma expressão chave foi realizada.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de na etapa 6) ser feito o reconhecimento de fala ou reconhecimento de uma sequência especial de expressões para desabilitar ou habilitar a interface .

5. Método, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de considerar ponto de referência, análise regiões caóticas e classificação orientada a distâncias relativas.

6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de utilizar como ponto de referência um ponto do rosto (Prf) , preferencialmente o nariz para rastrear relativamente outros pontos do rosto.

7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de a análise regiões caóticas particionar o rosto em três regiões criticas como: área dos olhos, nariz e boca, R_eyes ; Rm_outh; R_nose, respectivamente.

8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de se calcular a distância do seu ponto central aos demais pontos por:

R_eyes: para cada olho, pelo menos 1 ponto central de referência e pelo menos 5 pontos acima e abaixo do olho;

R_mouth: para a boca, pelo menos 1 ponto central de referência, pelo menos 5 ao redor abaixo e 5 acima, e

R_nose: para o nariz, pelo menos 1 ponto central de referência e pelo menos 3 ao redor.

9. Método, de acordo com a reivindicação 5, caracterizado pelo fato de a classificação orientada a distâncias relativas calcular a distância dos pontos que se movimentaram entre eles ou em relação ao ponto de referência da região, comparando-o com o.s padrões das- expressões cadastradas .

10. Método, de acordo com qualquer uma das reivindicações 6 a 10, caracterizado pelo fato de todo ponto

11. Método, de acordo com a reivindicação 2, caracterizado pelo fato de o sorriso completo ser definido pela distância entre o ponto mais extremo do canto direito da boca em relação ao ponto central e pela distância entre o ponto mais extremo do canto esquerdo da boca em relação ao ponto central, sendo determinado pela- relação de: dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p_r para todos os outros pontos p, observando a equação Eq. 1)

em que, inicia-se o cálculo da distância entre os pontos no sentido da componente com maior variância, escolhe-se dois pontos, p₁ e p₂, cuja a distância de p_r a eles seja a maior dentre os outros pontos e a distância d(p₁; P₂) seja maior possível, sendo o sorriso detectado quando a distância de p₁ e p₂ ultrapassarem dois limiares já predefinidos, t₁ e t₂.

12. Método, de acordo com a reivindicação 2, caracterizado pelo fato de o meio-sorriso ser definido pela distância entre o ponto mais extremo do canto direito ou esquerdo da boca em relação ao ponto central, sendo determinado pela relação de definição de: dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p_r para todos os outros pontos p, observando a equação Eq. 2)

em que a expressão meio sorriso é detectada quando a distância entre de p_r e p₁ ou entre de p_r e p₂ ultrapassarem os limiares já predefinidos, t₁ e t₂, respectivamente.

13. Método, de acordo com a reivindicação 2, caracterizado pelo fato de o beijo ser definido pela curta distância entre os pontos extremos da boca à esquerda e à direita e o ponto central e a nula distância entre os pontos do lábio superior e lábio inferior, sendo determinado pel definição de: dado o conjunto de pontos C, calcula-se distância euclidiana do ponto de referência p_r para todos o outros pontos p, observando a equação Eq. 3)

em que a expressão beijo é detectada quando a distância entre p_r e p₁ e entre p_r e p₂ ultrapassarem dois limiares predefinidos, t₁ e t₂ e o somatório das distâncias d(p₃; p₆) e d(p₄; p₇) e d(p₅; ρ₈) tender a zero.

18. Método, de acordo com a reivindicação 2, caracterizado pelo fato de a língua para fora ser detectada quando a distância entre p_r e p₁ e entre p_r e p₂ ultrapassarem dois limiares já predefinidos, t₁ e t₂ e o somatório das distâncias d(p₃; p₆) e d(p₄; p₇) e d(p₅; p₈) tender a um valor g já conhecido e diferente de nulo.

19. Método, de acordo com a reivindicação 2, caracterizado pelo fato de a expressão sobrancelhas para o alto ser definida pela distância entre o -ponto central da pupila e o ponto central da parte inferior da sobrancelha, para cada olho ou definida pela distância entre o ponto central da pupila e o ponto central da parte superior da sobrancelha, para cada olho, sendo determinada pela definição de: dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p_r1 para todos os outros pontos p do olho direto e p_r2 para todos os outros pontos p do olho esquerdo, observando a equação Eq. 4) em que a é detectada quando a distância de p₁ e a distância p₂ em relação aos seus respectivos pontos p_r1 e p_r2 ultrapassarem dois limiares já predefinidos, t₁ e t₂.

20. Método, de acordo com a reivindicação 2, caracter!zado pelo fato de a expressão franzir de nariz ser definida pela movimentação de três pontos abaixo do nariz em relação ao ponto central, observada a definição de: dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p_r para pontos p do nariz, observando a equação Eq. 5)

em que é detectada quando a distância de pi e a distância p₂ em relação ao ponto p_r ultrapassarem dois limiares já predefinidos, t₁ e t₂ e quando p₁ e p₂ não fazem parte da reta r₃.

21. Método, de acordo com a reivindicação 1, caracterizado pelo fato da etapa (6) quando realizada por sequência de expressões pode movimentar-se entre as etapas 1 a 5, de posição flexível porque atua a qualquer momento de identificação dessa sequência especial de expressões do usuário; a sequência especial de expressões pode ser definida pelo usuário, como um beijo seguido por dois sorrisos, ou um levantar de sobrancelhas durante 4 segundos, ou duas piscadas e um franzir de nariz, podem ser utilizadas par "Liberar" e "Bloquear" a interface.

Description:

MÉTODO DE ANÁLISE FACIAL PARA CONTROLE DE DISPOSITIVOS Campo da invenção:

[1] 0 primeiro relatório descritivo se insere no campo das tecnologias eletrônicas destinadas ^" à melhoria da mobilidade e autonomia i) de pessoas portadoras de necessidades especiais, especialmente as pessoas que não possuem parcial ou total controle das mãos ou ii) pessoas sem necessidades especiais, mas que no momento desejem controlar equipamentos eletrônicos sem utilizar as mãos.

Estado da técnica:

[2] Pesquisas em interfaces assistivas têm crescido rapidamente nos últimos anos, devido ao aumento constante da demanda, incentivos de estratégias públicas e surgimento de tecnologias auxiliares de baixo custo como sensores portáteis de electromiografia (EMG) , de eletroencefalograma (EEG) e câmeras de profundidade. -Essas p-esquisas vêm ajudando pessoas vitimas de acidentes, que tenham perdido controle sobre os membros inferiores e superiores.

[3] Pacientes vitimas de doenças degenerativas como Esclerose Lateral Amiotrófica (ELA) ou com trauma na medula espinhal ou vitimas de Acidente Vascular Cerebral (AVC) podem ter os movimentos dos membros superiores comprometidos a ponto de não conseguirem manusear com as mãos um joystick de uma cadeira de rodas motorizada, por exemplo.

[4] Uma solução assistiva bem popular é a utilização de dispositivos "sip-and puff" (SNP), onde o sistema detecta o fluxo de ar que sai e entra pelo tubo de sopro, geralmente ligado à boca. O sistema pode ser capaz de -detectar quatro canais: expiração e inspiração em duas intensidades, forte e leve. O sistema deve ser calibrado para cada individuo e embora seja prático, em muitos casos, concorre com a própria respiração do usuário.

[5] Interfaces de rastreio do movimento dos olhos ou detecção de piscadas podem ser utilizadas para controlar uma cadeira de rodas motorizada, como disponível no estado da técnica. Embora muitas vezes cansativas, estas podem ser as únicas soluções para pacientes vítimas de acidentes ou síndromes mais graves como a síndrome do encarceramento, onde todos os movimentos do corpo são paralisados com exceção dos olhos. No. estado da técnica ainda está disponível um método chamado Tongue Dríve System (TDS) , onde o usuário utiliza a língua para movimentar a cadeira de rodas. Sensores magnéticos são colocados um de cada lado do rosto e um ponto magnético é preso à língua, que ao movimentar para os lados, ativa ora um, ora outro sensor. O projeto da cadeira de rodas inteligentes, por sua vez, utiliza interface por comandos de voz. Tal cadeira já foi disponibilizada para pacientes do Boston Home, EUA.

[6] Muitas pesquisas focam em sinais de eletroencefalograma (EEG) como entrada, onde toucas cerebrais ou dispositivos tais como Emotiv EPOC, podem ser utilizados para captar sinais cerebrais e traduzir em comandos para movimentar uma cadeira de rodas. Assim como sistemas de rastreamento dos olhos, interfaces que utilizam sinais cerebrais, apesar de serem menos precisas na classificação e menos confortáveis, podem ser as únicas saídas para casos de extrema limitação.

[7] Eletromiografia (EMG) , a atividade elétrica de um músculo ao realizar uma contração, também é bastante utilizada como entrada. Essa é menos invasiva que uma touca cerebral, já que os eletrodos são geralmente colocados sobre o rosto do usuário. Expressões faciais, corno sorrisos, mordidas e piscadas de olhos, podem ser facilmente classificadas e traduzidas em comandos para a cadeira de rodas .

[8] Para evitar que eletrodos de EMG sejam colocados no rosto do usuário, a captação de expressões faciais pode ser feita por imagem. Ainda no estado da técnica utilizou- se processamento de imagem para a extrair tais expressões. Embora tenha conseguido resultados satisfatórios, as expressões utilizadas eram mais triviais de classificar uma vez que se tratavam de emoções exageradas (expressão de felicidade, tristeza, surpresa, raiva e neutra) . Tais expressões podem não ser confortáveis para o usuário em um longo período de interação.

[9] Com expressões mais suaves, outra linha de pesquisa apresentou um sistema para dirigir cadeira, no qual as expressões eram extraídas a partir da imagem de uma câmera digital e interpretadas por uma aplicação executada em um computador pessoal. 0 software incluía processamento de imagem, algoritmos para detecção de features, segmentação de cor e detecção de bordas .

[10] Uma rede neural era usada para detectar as expressões. Devido à quantidade de processos intermediários, o tempo médio para detectar uma expressão era de 500 milissegundos. Foi utilizado um simulador e a luz ambiente era controlada. Mesmo assim, duas expressões (sobrancelhas ao alto e abaixo) foram erroneamente classificadas em alguns momentos .

[11] Câmeras de profundidade não foram utilizadas, o que poderia diminuir o erro e o tempo de classificação.

[12] A titulo de aprofundamento no estado da técnica, alguns documentos de patentes e artigos que melhor ilustram o campo da presente invenção foram levantados:

[13] 0 documento EP 1 667 049 A2 tem enfoque especial nà extração de expressões faciais. Poucos detalhes sobre a extração de expressões faciais são mostrados. A invenção nele descrita utiliza câmera 3D e mapa de profundidade para capturar os pontos e com isso classificar as expressões. O documento relacionado utiliza uma câmera comum e classificadores e comparações matemáticas para classificar expressões. O documento relacionado não determina com exatidão que método utiliza, listando alguns, mas não citam classificadores. Contudo, na presente invenção, e objeto do presente relatório descritivo, é previsto que a câmèra possa também estar posicionada lateralmente em relação a face do usuário, o que permite flexibilidade em seu posicionamento para um maior . conforto. Ainda, na presente invenção, é prevista a variação de iluminação entre um ambiente muito iluminado para um ambiente a meia luz. Por fim, os pontos faciais dados pela câmera são provenientes do mapa de profundidade em câmera 3D, sendo esses pontos, material suficiente para tratar e classificar expressões.

[14] No artigo "HaWCoS: The "Hands-free" Wheelchair Control System", utilíza-se de EMG (eletromiograma) ou seja, sinais de contração muscular, com uma faixa na cabeça. Requer a utilização de apenas sobrancelhas para rastreamento . Em contrapartida, na presente invenção, o sensor não é preso ao corpo do usuário. Além disso, o usuário não precisa de uma segunda pessoa para colocar um sensor corporal (como o exemplo da faixa na cabeça) , como no caso do documento relacionado. Por fim, a presente invenção vantajosamente considera até 6 pontos de análises de expressões.

[15] O Artigo "Facial expression detection: a techníque for optical flow analysis" utiliza filtros que são aplicados a imagem pura do rosto do usuário. A quantidade de pontos é pequena. Seu campo de detecção restringe-se a apenas uma posição frontal, além de depender de iluminação constante. De maneira diferencial, a presente invenção utiliza quantidade considerável de pontos e principalmente, calcula as expressões usando não só os pontos da região de foco (por exemplo, a boca), mas também outros pontos da face (nariz), sendo possível aumentar a eficiência e principalmente isolar mais expressões faciais. Na presente invenção, a câmera pode ser posicionada lateralmente em relação à face do usuário, o que permite flexibilidade em seu posicionamento para um maior conforto, adicionalmente à possibilidade de variação de luz, fornece ao usuário uma versatilidade de uso fundamental .

[16] Na presente invenção, expressões faciais podem ser utilizadas para controlar outros dispositivos eletrônicos e mecânicos, como televisores, aparelhos de ar~condicionado, luzes, computadores, camas eletrônicas, aparelhos de automação residencial, ou por exemplo, aparelhos de rádio dentro de carros autónomos ou aviões comerciais.

Breve descrição da Invenção:

[17] A presente invenção refere~se a um método de análise facial para controle de dispositivos eletrônicos e mecânicos, em que são extraídos e classificados pontos faciais através de uma câmera 3D (câmera de profundidade) que pode estar ou não embarcada em um dispositivo móvel (como um smartphone ou- tablet), quando esses pontos formam expressões faciais chaves, como, por exemplo: sorriso, meio sorriso, levantar de sobrancelhas, língua para fora, um beijo, franzir o nariz, franzir a testa e outras. A referida classificação das expressões faciais ocorre em tempo real, e são traduzidas em comandos para controlar equipamentos, como uma cadeira de rodas, por exemplo.

Breve descrição das figuras:

[18] Para obter total e completa visualização do objeto desta invenção, são apresentadas as figuras as quais se faz referências, conforme se segue.

[19] A figura 1 é uma representação gráfica da utilização da presente invenção.

[20] A figura 2 é uma fotografia representativa das expressões faciais, preferenciais, classificadas em tempo real na presente invenção.

[21] A figura 3 é uma fotografia representativa do uso do nariz como ponto de referência na presente invenção.

[22] As figuras 4a e 4b são fotografias representativas do nariz como referência, em comparação com as regiões caóticas como referência, respectivamente.

[23] A figura 5 é uma fotografia representativa do sorriso completo identificado no método da presente invenção .

[24] A figura 6 é uma fotografia representativa do sorriso para a direita identificado no método da presente invenção .

[25] A figura 7 é uma fotografia representativa do beijo identificado no método da presente invenção. [26] A figura 8 é uma fotografia representativa de língua para fora identificada no método da presente invenção.

[27] A figura 9 é uma fotografia representativa de sobrancelhas para o alto identificadas no método da presente invenção .

[28] A figura 10 é uma fotografia representativa de franzir de nariz identificado no método da presente invenção.

[29] A figura 11 é um diagrama representativo das expressões faciais reconhecidas e o correspondente comportamento do joystick na cadeia de rodas.

Descrição detalhada da Invenção:

[30] A presente invenção refere-se a um método de análise facial para controle de dispositivos eletrônicos e mecânicos, em que são extraídos e classificados pontos faciais através de uma câmera 3D quando esses pontos formam expressões faciais chaves, como, por exemplo: sorriso, meio sorriso, levantar de sobrancelhas, língua para fora, um beijo, franzir o nariz e outras. A referida classificação das expressões faciais ocorre em tempo real, e são traduzidas em comandos para controlar equipamentos, como uma cadeira de rodas, por exemplo.

[31] A presente invenção tem como objetívo fornecer autonomia de mobilidade a cadeirantes que não são capazes de controlar um joystick de uma cadeira de rodas motorizada e autonomia para pessoas que desejam controlar equipamentos sem utilizar as mãos. Para isso, através de uma composição específica de hardware, compreendendo: um- . dispositivo para interface (comunicação) com o equipamento; uma câmera 3D e um computador (de bordo, remoto ou o próprio computador de um aparelho móvel como celulares) , onde o sistema analisador de expressões faciais será executado para realizar as etapas aqui reveladas que permitem ao usuário, utilizando suas expressões faciais, dirigir a cadeira de rodas ou controlar equipamentos eletrônicos sem o uso das mãos. Para cadeiras de rodas, onde o computador citado não consegue ser conectado diretamente ao controlador da cadeira, um dispositivo em formato de "garra" é adicionado a configuração de hardware. Tal dispositivo conector é uma pequena peça que de um lado abraça o joystick da cadeira e do outro lado permite que um computador sé conecte e envie comandos para movimentar os seus servos motores, que por sua vez, movimentam o joystick. A peça é formada por uma carcaça, com os dois servos motores internos preso a duas alavancas que trabalham nos dois eixos do joystick. É nesta composição de hardware que atua o método da presente invenção, que compreende a operação coordenada computador .

[32] Entende-se por computador, qualquer dispositivo que seja capaz de executar o software de análise facial, podendo ser um dispositivo móvel, como celulares, ou tablets.

[33] Uma vantagem muito especial da composição específica de hardware escolhida pela presente invenção, é que a cadeira de rodas motorizada não é modificada. Toda a comunicação original entre joystick e motores é preservada. Não há substituição nem alteração de peças já existentes, mantendo-se válidos o projeto e a sua garantia de fábrica. Adicionalmente, pode ser alimentado pela porta USB do computador pessoal, fazendo dessa composição, um produto de prateleira, facilmente utilizado em qualquer cadeira motorizada .

[34] Partindo desse princípio, a composição de hardware é compatível com o método da presente invenção, no sentido de que possui capacidade de envio de dados, preferencialmente, via USB, bluetooth ou rede sem fio.

[35] Tendo em vista o acima exposto, cabe ressaltar que o usuário é capaz de utilizar a presente invenção tanto em cadeiras motorizadas, quanto em cadeiras robotizadas.

[36] Para tanto, o método, objeto da descrição da presente invenção, compreende as etapas de:

Etapa 1) Aquisição de dados

Etapa 2) Aplicação de filtro de pontos

Etapa 3) Análise de expressões

Etapa 4) Configuração de perfil

Etapa 5) Envio a cadeira de rodas por meio de servidor

Etapa 6) Reconhecimento de fala ou de sequência de expressões faciais.

[37] Antes da fundamentação de cada uma das etapas, mais uma nota importante é válida de ser ressaltada: o uso das informações obtidas a partir da câmera 3D, aplica-se à captação de expressões sem a necessidade de treinamento, ou seja, o usuário não precisa treinar o seu sorriso para o computador entender, e sem a necessidade de calibração da referida câmera.

[38] Na Etapa 1) são adquiridos os dados, considerados como pontos da face, que são recebidos pela câmera 3D ou pelo dispositivo móvel onde a câmera esteja embarcada.

[39] Na etapa 2) é filtrada a informação 3D da face, em que apenas os pontos necessários para expressões do método são considerados. Neste sentido, pontos ao redor do rosto, por exemplo, podem não ser considerados.

[40] Na etapa 3) as expressões do rosto do usuário são analisadas por um analisador de expressões, que é o responsável por analisar a geometria dos pontos e indicar se uma expressão chave foi realizada.

[41] Na etapa 4) é informado qual comando está associado à expressão realizada, por exemplo, um beijo faz a cadeira ir para frente, um sorriso faz a cadeira de rodas parar, etc. A expressão extraída tem o seu comando correspondente procurado na tabela de configuração do perfil do usuário, ou seja, o usuário pode definir de forma prática a que cada expressão sua deve corresponder. Exemplos de comandos que podem ser configurados para ter expressões associadas: ir para frente, para trás, girar para à direita, para à esquerda, e parar a cadeira. Outras expressões, ou combinações de duas ou mais, podem ser utilizadas para aumentar a velocidade e aceleração da cadeira, ou controlar outros dispositivos da cadeira ou ambiente.

[42] Na etapa 5) é feito o envio do comando correspondente â expressão facial à cadeira de rodas através de um servidor que pode estar embarcado em um computador de bordo ou remotamente.

[43] Na etapa 6) é feito o reconhecimento de fala para desabilitar ou habilitar a interface. Essa etapa pode movimentar-se entre as etapas 1 a 5, sendo uma etapa de posição flexível porque atua a qualquer momento de identificação de fala do usuário. Um dicionário de duas palavras, "Liberar" e "Bloquear" é usado para acionamento de um estado de conversação. Ao falar um dos comandos _/ o usuário habilita ou desabilita a interface. Uma vez desabilitada, nenhuma expressão do usuário será considerada para movimentar a cadeira. [44] Na etapa 6) como alternativa ao reconhecimento de fala, o usuário pode utilizar uma sequência de expressões faciais para desabilitar ou habilitar a interface. Essa etapa pode movimentar-se entre as etapas 1 a 5, sendo uma etapa de posição flexível porque atua a qualquer momento de identificação dessa sequência especial de expressões do usuário. A sequência especial de expressões pode ser definida pelo usuário, como um beijo seguido por dois sorrisos, ou um levantar de sobrancelhas durante 4 segundos, ou duas piscadas e um franzir de nariz, podem ser utilizadas par "Liberar" e "Bloquear" a interface. Ao realizar a sequência especial de expressões, o usuário habilita ou desabilita a interface. Uma vez desabilitada, nenhuma expressão do usuário será considerada para movimentar a cadeira ou acionar o sistema, exceto a sequência especial de expressões, que ao ser realizada novamente, aciona o sistema mais uma vez.

[45] Em uma exemplificação da modalidade preferencial da presente invenção, pode-se observa o seguinte cenário: O usuário usa em sua cadeira de rodas, um computador portátil (ou smartphone) com a câraera 3D apontada para seu rosto. O usuário escolhe as expressões faciais que prefere e os comandos da cadeira que serão associados a cada uma. A câmera 3D analisa em tempo real os pontos faciais do usuário. Esses pontos são dados pela câmera. O método aqui revelado analisa também em tempo real a configuração dos pontos naquele instante t e define se há ou não uma expressão chave sendo realizada. Se sim, a expressão é traduzida em comando para a cadeira de rodas.

[46] São especiais diferenciais a presente invenção:

- o classificador de expressões em tempo real que utiliza pontos 3D e não imagens sequenciais ou bases de treinamento de imagens;

- o usuário não precisa cadastrar suas expressões previamente e não há necessidade de calibração de câmera; as expressões faciais utilizadas são as mais naturalmente usadas ;

- o estado de conversação que permite que o usuário mantenha conversas sem que o sistema confunda expressões da conversa com expressões chaves, sendo assim o usuário é capaz de manter uma conversa com terceiros sem que seu sorriso ou franzir de nariz, por exemplo, interfira no comando da cadeira, pois, nesse momento, o estado de conversação percebe que aquela sequência de expressões segue um padrão de conversa e não de expressões isoladas. Alternativamente à essa detecção de padrão de conversas utilizando uma câmera 3D, através de um microfone instalado próximo a câmera {ou embarcado no mesmo dispositivo móvel) pode-se perceber se o usuário está conversando e, durante aquele período, a amplitude das expressões para controlar a cadeira de rodas deverá ser maior (mais expressiva) do que o normal para controlar a cadeira;

- o mecanismo de filtragem de expressões involuntárias;

- a facilidade de comandos-, com a qual, por exemplo, para parar a cadeira com um sorriso completo (mesmo que sem mostrar os dentes) é o suficiente.

- ativação e desativação da interface por voz, em que além do estado de conversação por captação do microfone, a qualquer momento o usuário poderá desativar a interface por comando de voz, tornando o sistema isento do tratamento do estado de conversação detectado pelo microfone ou pela sequência de expressões realizadas. No caso da ativação e desativação por voz, o sistema pode ser totalmente bloqueado, sendo a partir desse momento, impossível de se utilizar expressões faciais para controlar algo até que, por voz, o usuário desbloqueie o sistema. Em geral, duas palavras, a escolha do usuário, podem ser utilizadas, como "Bloquear" e "Desbloquear". Ao falar "Bloquear", a interface para de tratar as informações enviadas pela câmera. Ao falar "Desbloquear", a interface volta a tratar as informações acerca das expressões faciais.

- ativação e desativação da interface por uma sequência especial de expressões a ser escolhida pelo usuário, sequência essa com baixa probabilidade de acontecer em uma conversa, onde ao realiza-la a qualquer momento o usuário poderá desativar a interface, tornando o sistema isento do tratamento do estado de conversação detectado pelo microfone ou por comando de voz. No caso da ativação e desativação por sequência especial de expressões faciais, o sistema pode ser totalmente bloqueado, sendo a partir desse momento, impossível de se utilizar expressões faciais para controlar algo até que, por a mesma sequência especial de expressões faciais, o usuário desbloqueie o sistema. Em geral, a sequência especial funciona como uma senha contendo duas ou mais expressões faciais realizadas em sequência, como por exemplo, um franzir de nariz seguido por duas piscadas de olho ou um levantar de sobrancelhas por 3 segundos, podem ser utilizadas, para "Bloquear" e "Desbloquear". Ao "Bloquear", a interface para de considerar as informações enviadas pela câmera exceto quando a sequência de expressões é realizada novamente. Ao "Desbloquear", a interface volta a tratar as informações acerca das expressões faciais como possíveis comandos.

- o mecanismo de filtragem de expressões involuntárias, em que tosses e espirros e bocejos são filtrados do sistema através de detecção de padrões, sendo a tosse um padrão de pontos ao redor da boca, nariz e cabeça; espirro: pontos ao redor da boca, nariz e olhos e bocejo: boca e sobrancelhas.

[47] Para que o processo de classificação seja rápido e com alta taxa de acerto, ele se baseia em três pilares:

1. Ponto de referência: o método da presente invenção utiliza um ponto de referência fixo.

2. Análise regiões caóticas: método da presente invenção, antes de avaliar todos os pontos do rosto, avalia apenas a região que se movimentou.

3. Classificação orientada a distâncias relativas: método da presente invenção calcula a distância dos pontos que se movimentaram entre eles e/ou em relação ao ponto de referência da região, e compara com os padrões das expressões cadastradas.

[48] A figura 2 apresenta uma representação das expressões faciais preferenciais.

[49] A presente invenção usa o nariz como ponto de referência (P _rf) , que no mapa de profundidade é o ponto mais próximo da câmera, ou seja, ao aproximar um rosto humano de um plano (por exemplo, uma parede) , o primeiro ponto do rosto a encostar no plano é a ponta do nariz. Um ponto no rosto 3D por sua vez é determinado por suas coordenadas P{x;y;z). O usuário ao virar o rosto, tem a posição dos pontos da boca, nariz, sobrancelhas alteradas, como mostra a versão da Figura 3. [50] As posições dos pontos em uma expressão neutra são alteradas, mas não em relação ao referencial (nariz), o que continua caracterizando uma expressão neutra. Diferentemente da versão simplificada da Figura 3, o método da presente invenção rastreia, em sua modalidade preferencial, 17 pontos usando o nariz como referência como mostra a Figura 4a.

[51] Para análise de regiões caóticas, o método aqui revelado particiona o rosto em três regiões críticas: área dos olhos, nariz e boca, como mostra a Figura 4b. Para cada região R _eyes ; Rm _outh; R _nose calcula-se a distância do seu ponto central as demais pontos. Por exemplo, R _eyes: para cada olho, 1 ponto central de referência e 5 pontos acima e abaixo do olho; R _mouth: para à boca, 1 ponto central de referência, 5 abaixo e 5 acima; R _nose: para o nariz, 1 ponto central de referência e 3 abaixo. Em suma, uma região é caótica quando o somatório das distâncias dos seus pontos ao ponto central é maior que o limite λ.

[52] Em suposição, pontos de referências para cada região de entropia já foram calculados. Todo ponto

[53] No total, 6 expressões faciais são classificadas na modalidade preferencial da presente invenção, conforme abaixo detalhadas:

- Sorriso completo, conforme figura 5:

[54] Definido pela distância entre o ponto mais extremo do canto direito, da boca em relação- ao ponto central E pela distância entre o ponto mais extremo do canto esquerdo da boca em relação ao ponto central.

[55] Definição: Dado o conjunto de pontos C, calcula- se a distância euclidiana do ponto de referência p _r para todos os outros pontos p.

[56] Inicia-se o cálculo da distância entre os pontos no sentido da componente com maior variância. Escolhemos dois pontos, p ₁ e p ₂, cuja a distância de p _r a eles seja a maior dentre os outros pontos e a distância d(p ₁; p ₂) seja maior possível.

[57] A expressão "sorriso" é detectada quando a distância de p ₁ e P ₂ ultrapassarem dois limiares já predefinidos, t ₁ e t ₂.

Meio-sorriso, conforme figura 6:

[58] Meio sorriso: definido pela distância entre o ponto mais extremo do canto direito ou esquerdo da boca em relação ao ponto central. Definição: Dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p _r para todos os outros pontos p.

[59] A expressão "meio sorriso" é detectada quando a distância entre de p _r e p ₁ OU entre de p _r e p ₂ ultrapassarem os limiares já predefinidos, t ₁ e t ₂, respectivamente. - Beijo, conforme figura 7:

[60] Beijo: definido pela curta distância entre os pontos extremos da boca (a esquerda e a direita) e o ponto central e "nula" distância entre os pontos do lábio superior e lábio inferior. Definição: Dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p _r para todos os outros pontos p.

[61] A expressão "beijo" é detectada quando a distância entre p _r e pi e entre p _r e p ₂ ultrapassarem dois limiares já predefinidos, tietz E somatório das distâncias d(p ₃; p ₆) e d(p ₄; p ₇) e d(p ₅; p ₈) tender a zero.

- Língua para fora, conforme figura 8:

[62] A expressão "língua para fora" é detectada quando a distância entre p _r e p ₁ e entre p _r e p ₂ ultrapassarem dois limiares já predefinidos, tiet ₂ E somatório das distâncias d(p ₃; p6) e d(p ₄; p ₇) e d(p ₅; p ₈) tender a um valor g já conhecido e diferente de nulo (distâncias representadas pelas linhas amarelas) . .

- Sobrancelhas para o alto, conforme figura 9:

[63] Sobrancelhas ao alto: Definido pela distância entre o ponto central da pupila e o ponto central da parte inferior da sobrancelha, para cada olho OU definida pela distância entre o ponto central da pupila e o ponto central da parte superior da sobrancelha, para cada olho. Definição: Dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p _r1 para todos os outros pontos p do olho direto e p _r2 para todos os outros pontos p do olho esquerdo.

[64] A expressão "sobrancelhas ao alto" é detectada quando a distância de p ₁ e a distância p ₂ em relação aos seus respectivos pontos pri e pra ultrapassarem dois limiares já predefinidos, t ₁ e t ₂.

- Franzir de nariz, conforme figura 10

[65] Franzir de nariz: Definido pela movimentação de três pontos abaixo do nariz em relação ao ponto central. Ao franzir o nariz, o ponto mais à esquerda e o ponto mais à direita do nariz tem suas distâncias ao ponto central do nariz encurtada e suas posições distanciadas em relação à reta gerada pelo ponto central mais abaixo. Definição: Dado o conjunto de pontos C, calcula-se a distância euclidiana do ponto de referência p _r para pontos p do nariz.

Eq. 5)

[66] A expressão "franzir nariz" é detectada quando a distância de pi E distância pa em relação ao ponto p _r ultrapassarem dois limiares já predefinidos, ti e tj e quando p ₁ e p ₂ não fazem parte da reta r ₃. [67] Por fim, como conclusão da descrição vantajosa da presente invenção, é previsto que a câmera não precise estar obrigatoriamente na frente, podendo estar também posicionada lateralmente em relação à face do usuário e, adicionalmente à possibilidade de variação de luz, fornece ao usuário uma versatilidade de uso fundamental, anteriormente não prevista .

Previous Patent: HOLDER FOR EYEGLASSES

Next Patent: SYSTEM AND METHOD FOR NEUTRALIZING PESTICIDES OR SIMILAR AGENTS CONTAINED IN FOODSTUFFS AND STRUCTUR...